論文の概要: S-EQA: Tackling Situational Queries in Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2405.04732v1
- Date: Wed, 8 May 2024 00:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 15:35:21.401066
- Title: S-EQA: Tackling Situational Queries in Embodied Question Answering
- Title(参考訳): S-EQA: Embodied Question Answeringにおける状況問合せ処理
- Authors: Vishnu Sashank Dorbala, Prasoon Goyal, Robinson Piramuthu, Michael Johnston, Dinesh Manocha, Reza Ghanadhan,
- Abstract要約: 本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
まず, LLMの出力をラップして, ユニークな状況クエリのデータセットを作成する, 新規なPrompt-Generate-Evaluateスキームを提案する。
我々は,M-Turk上で大規模なユーザスタディによって生成されたデータセットを検証し,状況クエリでEQAに対処する最初のデータセットであるS-EQAとして紹介する。
- 参考スコア(独自算出の注目度): 48.43453390717167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present and tackle the problem of Embodied Question Answering (EQA) with Situational Queries (S-EQA) in a household environment. Unlike prior EQA work tackling simple queries that directly reference target objects and quantifiable properties pertaining them, EQA with situational queries (such as "Is the bathroom clean and dry?") is more challenging, as the agent needs to figure out not just what the target objects pertaining to the query are, but also requires a consensus on their states to be answerable. Towards this objective, we first introduce a novel Prompt-Generate-Evaluate (PGE) scheme that wraps around an LLM's output to create a dataset of unique situational queries, corresponding consensus object information, and predicted answers. PGE maintains uniqueness among the generated queries, using multiple forms of semantic similarity. We validate the generated dataset via a large scale user-study conducted on M-Turk, and introduce it as S-EQA, the first dataset tackling EQA with situational queries. Our user study establishes the authenticity of S-EQA with a high 97.26% of the generated queries being deemed answerable, given the consensus object data. Conversely, we observe a low correlation of 46.2% on the LLM-predicted answers to human-evaluated ones; indicating the LLM's poor capability in directly answering situational queries, while establishing S-EQA's usability in providing a human-validated consensus for an indirect solution. We evaluate S-EQA via Visual Question Answering (VQA) on VirtualHome, which unlike other simulators, contains several objects with modifiable states that also visually appear different upon modification -- enabling us to set a quantitative benchmark for S-EQA. To the best of our knowledge, this is the first work to introduce EQA with situational queries, and also the first to use a generative approach for query creation.
- Abstract(参考訳): 本研究では,家庭環境における状況問合せ (S-EQA) を用いた身体的質問回答 (EQA) の課題を提示・解決する。
従来のEQAの作業では、ターゲットオブジェクトを直接参照する単純なクエリや、それらに関連する定量化されたプロパティに対処する必要があったが、状況的クエリ(例えば、"トイレの清潔で乾燥"など)のEQAは、クエリに関連する対象オブジェクトが何であるかだけでなく、その状態に関するコンセンサスも理解する必要があるため、より難しい。
そこで本研究では,まず,LLMの出力を包み込み,独自のコンセンサスクエリ,対応するコンセンサスオブジェクト情報,予測回答のデータセットを作成する,新しいPGE方式を提案する。
PGEは、複数の意味的類似性を用いて、生成されたクエリのユニークさを維持している。
我々は,M-Turk上で大規模なユーザスタディによって生成されたデータセットを検証し,状況クエリでEQAに対処する最初のデータセットであるS-EQAとして紹介する。
ユーザ調査により,S-EQAの信頼性が確立され,生成したクエリの97.26%が回答可能であることが確認された。
逆に,LLM予測回答と人間評価回答との相関は46.2%と低いが,LLMが直接応答する能力に乏しいこと,S-EQAが間接解に対して人間検証されたコンセンサスを提供することでユーザビリティを確立していることを示唆している。
他のシミュレータと異なり,S-EQAの定量的ベンチマークの設定を可能にするため,S-EQAを視覚的に異なる状態の複数のオブジェクトを含む,S-EQAをVisual Question Answering (VQA) で評価する。
私たちの知る限りでは、状況クエリによるEQAの導入は初めてであり、クエリ生成に生成的アプローチを使うのは今回が初めてです。
関連論文リスト
- Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs
Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。
本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。
本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文 参考訳(メタデータ) (2023-04-27T01:48:03Z) - CQE in OWL 2 QL: A "Longest Honeymoon" Approach (extended version) [13.169982133542266]
動的CQE法,すなわち,従来のクエリの評価に基づいて,現在のクエリに対する応答を変更することを提案する。
我々は、機密データを保護できるだけでなく、最大限に協力できるシステムを目指しています。
論文 参考訳(メタデータ) (2022-07-22T15:51:15Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。