論文の概要: Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2405.04732v3
- Date: Mon, 10 Mar 2025 21:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:16:27.244617
- Title: Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering
- Title(参考訳): 家庭の睡眠準備は整ったか? : 身体的質問応答のための状況質問の生成と評価
- Authors: Vishnu Sashank Dorbala, Prasoon Goyal, Robinson Piramuthu, Michael Johnston, Reza Ghanadhan, Dinesh Manocha,
- Abstract要約: 本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
以前のEQAの作業とは異なり、状況的クエリでは、エージェントが複数のオブジェクト状態を正しく識別し、回答のために状態に関するコンセンサスに到達する必要がある。
本稿では, LLMの出力をラップして, 独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する新しいPrompt-Generate-Evaluateスキームを提案する。
- 参考スコア(独自算出の注目度): 48.43453390717167
- License:
- Abstract: We present and tackle the problem of Embodied Question Answering (EQA) with Situational Queries (S-EQA) in a household environment. Unlike prior EQA work tackling simple queries that directly reference target objects and properties ("What is the color of the car?"), situational queries (such as "Is the house ready for sleeptime?") are challenging as they require the agent to correctly identify multiple object-states (Doors: Closed, Lights: Off, etc.) and reach a consensus on their states for an answer. Towards this objective, we first introduce a novel Prompt-Generate-Evaluate (PGE) scheme that wraps around an LLM's output to generate unique situational queries and corresponding consensus object information. PGE is used to generate 2K datapoints in the VirtualHome simulator, which is then annotated for ground truth answers via a large scale user-study conducted on M-Turk. With a high rate of answerability (97.26%) on this study, we establish that LLMs are good at generating situational data. However, in evaluating the data using an LLM, we observe a low correlation of 46.2% with the ground truth human annotations; indicating that while LLMs are good at generating situational data, they struggle to answer them according to consensus. When asked for reasoning, we observe the LLM often goes against commonsense in justifying its answer. Finally, we utilize PGE to generate situational data in a real-world environment, exposing LLM hallucination in generating reliable object-states when a structured scene graph is unavailable. To the best of our knowledge, this is the first work to introduce EQA in the context of situational queries and also the first to present a generative approach for query creation. We aim to foster research on improving the real-world usability of embodied agents through this work.
- Abstract(参考訳): 本研究では,家庭環境における状況問合せ (S-EQA) を用いた身体的質問回答 (EQA) の課題を提示・解決する。
従来のEQAの作業では、対象のオブジェクトやプロパティを直接参照する単純なクエリ("車の色は?"など)に対処する必要があったが、複数のオブジェクト状態(ドア:クローズド、ライト:オフなど)を正しく識別し、その状態についてコンセンサスに達する必要があるため、状況的なクエリ("家の準備はできているか?"など)は難しい。
そこで本研究では,LLMの出力をラップして独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する,新しいPGE方式を提案する。
PGEはVirtualHomeシミュレータで2Kデータポイントを生成するのに使われ、M-Turk上で大規模なユーザスタディが実行される。
本研究は高い回答率 (97.26%) で, LLM が状況データの生成に有効であることが確認された。
しかし, LLMを用いたデータ評価では, LLMが状況データの生成に長けているにもかかわらず, コンセンサスによる回答に苦慮していることが示唆された。
推論を求めると、私たちは LLM がその答えを正当化する上で、しばしば常識に反しているのを観察します。
最後に,PGEを用いて実環境における状況データを生成し,構造化されたシーングラフが利用できない場合に,信頼性の高いオブジェクト状態を生成するためのLLM幻覚を露呈する。
我々の知る限りでは、状況問合せの文脈でEQAを導入する最初の試みであり、クエリ生成のための生成的アプローチを示す最初の試みである。
本研究は,具体化エージェントの現実的利用性向上に関する研究を促進することを目的としている。
関連論文リスト
- CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering [6.297950040983263]
大きな言語モデル(LLM)は、曖昧な質問に直面した場合、質問応答(QA)タスクにおいて幻覚を起こす傾向にある。
我々は200の曖昧なクエリを持つベンチマークであるCondAmbigQA(CondAmbigQA)を紹介する。
我々の研究は、あいまいなQAタスクにおける「条件」の概念の先駆者であり、条件はあいまいさを解決する文脈的制約や仮定を表す。
論文 参考訳(メタデータ) (2025-02-03T17:01:51Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs
Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。
本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。
本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文 参考訳(メタデータ) (2023-04-27T01:48:03Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。