論文の概要: S-EQA: Tackling Situational Queries in Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2405.04732v2
- Date: Fri, 25 Oct 2024 20:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 16:01:27.101311
- Title: S-EQA: Tackling Situational Queries in Embodied Question Answering
- Title(参考訳): S-EQA: Embodied Question Answeringにおける状況問合せ処理
- Authors: Vishnu Sashank Dorbala, Prasoon Goyal, Robinson Piramuthu, Michael Johnston, Reza Ghanadhan, Dinesh Manocha,
- Abstract要約: 本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
まず, LLMの出力を包み込み, ユニークなコンセンサス・クエリと対応するコンセンサス・オブジェクトのデータセットを作成する, プロンプト・ジェネレート・評価手法を提案する。
本稿では,VQA(Visual Question Answering)において生成したオブジェクトコンセンサスからフレーム化されたクエリを用いて,状況に応じた質問に対して直接回答する際の精度を15.31%改善したことを報告した。
- 参考スコア(独自算出の注目度): 48.43453390717167
- License:
- Abstract: We present and tackle the problem of Embodied Question Answering (EQA) with Situational Queries (S-EQA) in a household environment. Unlike prior EQA work tackling simple queries that directly reference target objects and properties ("What is the color of the car?"), situational queries (such as "Is the house ready for sleeptime?") are more challenging requiring the agent to identify multiple objects (Doors: Closed, Lights: Off, etc.) and reach a consensus on their states for an answer. Towards this objective, we first introduce a novel Prompt-Generate-Evaluate (PGE) scheme that wraps around an LLM's output to create a dataset of unique situational queries and corresponding consensus object information. PGE maintains uniqueness among the generated queries, using semantic similarity via a feedback loop. We annotate the generated data for ground truth answers via a large scale user-study conducted on M-Turk, and with a high answerability rate of 97.26%, establish that LLMs are good at generating situational data. However, using the same LLM to answer the queries gives a low success rate of 46.2%; indicating that while LLMs are good at generating query data, they are poor at answering them. We use images from the VirtualHome simulator with the S-EQA queries establish an evaluation benchmark via Visual Question Answering (VQA). We report an improved accuracy of 15.31% while using queries framed from the generated object consensus for VQA over directly answering situational ones, indicating that such simplification is necessary for improved performance. To the best of our knowledge, this is the first work to introduce EQA in the context of situational queries that also uses a generative approach for query creation. We aim to foster research on improving the real-world usability of embodied agents in household environments through this work.
- Abstract(参考訳): 本研究では,家庭環境における状況問合せ (S-EQA) を用いた身体的質問回答 (EQA) の課題を提示・解決する。
以前のEQAの作業では、対象のオブジェクトやプロパティを直接参照する単純なクエリ(“車の色は?”)に対処する必要があったが、状況的なクエリ(“家の準備はできているか?”など)では、エージェントが複数のオブジェクト(ドア:クローズド、ライト:オフなど)を識別し、その状態についてコンセンサスに達することがより困難になっている。
この目的に向けて,LLMの出力を包み込み,ユニークな状況クエリとそれに対応するコンセンサスオブジェクト情報のデータセットを作成する,新しいPGE(Prompt-Generate-Evaluate)スキームを導入する。
PGEは、フィードバックループを通じてセマンティックな類似性を使用して、生成されたクエリのユニークさを維持している。
我々は,M-Turk 上で行った大規模ユーザスタディを用いて,生成した真実解のアノテートを行い,97.26%の回答率で,LLM が状況データを生成するのに優れていることを確認した。
しかし、同じLLMを使用してクエリに応答すると、46.2%の低い成功率が得られる。
S-EQAクエリでVirtualHomeシミュレータの画像を使用して、Visual Question Answering (VQA)による評価ベンチマークを確立する。
本稿では,VQAに対して生成したオブジェクトコンセンサスからフレーム化されたクエリを,直接応答するよりも15.31%の精度向上を報告し,その単純化が性能向上に必要であることを示す。
我々の知る限りでは、これは、クエリ生成に生成的アプローチを使用する状況クエリの文脈でEQAを導入する最初の試みである。
本研究は, 住宅環境におけるエンボディエージェントの現実的利用性向上に関する研究を促進することを目的としている。
関連論文リスト
- Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs
Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。
本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。
本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文 参考訳(メタデータ) (2023-04-27T01:48:03Z) - CQE in OWL 2 QL: A "Longest Honeymoon" Approach (extended version) [13.169982133542266]
動的CQE法,すなわち,従来のクエリの評価に基づいて,現在のクエリに対する応答を変更することを提案する。
我々は、機密データを保護できるだけでなく、最大限に協力できるシステムを目指しています。
論文 参考訳(メタデータ) (2022-07-22T15:51:15Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。