Fugu-MT 論文翻訳(概要): Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering

論文の概要: Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering

arxiv url: http://arxiv.org/abs/2405.04732v3
Date: Mon, 10 Mar 2025 21:12:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 18:30:32.973935
Title: Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering
Title（参考訳）: 家庭の睡眠準備は整ったか? : 身体的質問応答のための状況質問の生成と評価
Authors: Vishnu Sashank Dorbala, Prasoon Goyal, Robinson Piramuthu, Michael Johnston, Reza Ghanadhan, Dinesh Manocha,
Abstract要約: 本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。以前のEQAの作業とは異なり、状況的クエリでは、エージェントが複数のオブジェクト状態を正しく識別し、回答のために状態に関するコンセンサスに到達する必要がある。本稿では, LLMの出力をラップして, 独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する新しいPrompt-Generate-Evaluateスキームを提案する。
参考スコア（独自算出の注目度）: 48.43453390717167
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present and tackle the problem of Embodied Question Answering (EQA) with Situational Queries (S-EQA) in a household environment. Unlike prior EQA work tackling simple queries that directly reference target objects and properties ("What is the color of the car?"), situational queries (such as "Is the house ready for sleeptime?") are challenging as they require the agent to correctly identify multiple object-states (Doors: Closed, Lights: Off, etc.) and reach a consensus on their states for an answer. Towards this objective, we first introduce a novel Prompt-Generate-Evaluate (PGE) scheme that wraps around an LLM's output to generate unique situational queries and corresponding consensus object information. PGE is used to generate 2K datapoints in the VirtualHome simulator, which is then annotated for ground truth answers via a large scale user-study conducted on M-Turk. With a high rate of answerability (97.26%) on this study, we establish that LLMs are good at generating situational data. However, in evaluating the data using an LLM, we observe a low correlation of 46.2% with the ground truth human annotations; indicating that while LLMs are good at generating situational data, they struggle to answer them according to consensus. When asked for reasoning, we observe the LLM often goes against commonsense in justifying its answer. Finally, we utilize PGE to generate situational data in a real-world environment, exposing LLM hallucination in generating reliable object-states when a structured scene graph is unavailable. To the best of our knowledge, this is the first work to introduce EQA in the context of situational queries and also the first to present a generative approach for query creation. We aim to foster research on improving the real-world usability of embodied agents through this work.
Abstract（参考訳）: 本研究では,家庭環境における状況問合せ (S-EQA) を用いた身体的質問回答 (EQA) の課題を提示・解決する。従来のEQAの作業では、対象のオブジェクトやプロパティを直接参照する単純なクエリ("車の色は?"など)に対処する必要があったが、複数のオブジェクト状態(ドア:クローズド、ライト:オフなど)を正しく識別し、その状態についてコンセンサスに達する必要があるため、状況的なクエリ("家の準備はできているか?"など)は難しい。そこで本研究では,LLMの出力をラップして独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する,新しいPGE方式を提案する。 PGEはVirtualHomeシミュレータで2Kデータポイントを生成するのに使われ、M-Turk上で大規模なユーザスタディが実行される。本研究は高い回答率 (97.26%) で, LLM が状況データの生成に有効であることが確認された。しかし, LLMを用いたデータ評価では, LLMが状況データの生成に長けているにもかかわらず, コンセンサスによる回答に苦慮していることが示唆された。推論を求めると、私たちは LLM がその答えを正当化する上で、しばしば常識に反しているのを観察します。最後に,PGEを用いて実環境における状況データを生成し,構造化されたシーングラフが利用できない場合に,信頼性の高いオブジェクト状態を生成するためのLLM幻覚を露呈する。我々の知る限りでは、状況問合せの文脈でEQAを導入する最初の試みであり、クエリ生成のための生成的アプローチを示す最初の試みである。本研究は,具体化エージェントの現実的利用性向上に関する研究を促進することを目的としている。

関連論文リスト

Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants [64.41695570145673]
生成したユーザメッセージから信頼性の高い質問や回答(QA)を自動的に構築するベイズシミュレータであるMemSimを提案する。 MemSimに基づいて、MemDailyという名前の日常生活シナリオのデータセットを生成し、我々のアプローチの有効性を評価するための広範な実験を行う。
論文参考訳（メタデータ） (2024-09-30T10:19:04Z)
W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文参考訳（メタデータ） (2024-08-15T22:34:44Z)
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。 BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文参考訳（メタデータ） (2024-06-24T22:09:50Z)
Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文参考訳（メタデータ） (2024-06-16T12:46:40Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文参考訳（メタデータ） (2023-05-15T15:44:51Z)
Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文参考訳（メタデータ） (2023-04-27T01:48:03Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)
CQE in OWL 2 QL: A "Longest Honeymoon" Approach (extended version) [13.169982133542266]
動的CQE法,すなわち,従来のクエリの評価に基づいて,現在のクエリに対する応答を変更することを提案する。我々は、機密データを保護できるだけでなく、最大限に協力できるシステムを目指しています。
論文参考訳（メタデータ） (2022-07-22T15:51:15Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。