論文の概要: Embodied Question Answering via Multi-LLM Systems
- arxiv url: http://arxiv.org/abs/2406.10918v3
- Date: Tue, 25 Jun 2024 10:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 19:29:42.764425
- Title: Embodied Question Answering via Multi-LLM Systems
- Title(参考訳): マルチLLMシステムによる身体的質問応答
- Authors: Bhrij Patel, Vishnu Sashank Dorbala, Dinesh Manocha, Amrit Singh Bedi,
- Abstract要約: EQA(Embodied Question Answering)は,ユーザの質問に答える環境を探索するエージェントが関与する重要な問題である。
本研究では,複数の大規模言語モデル(LLM)をベースとしたエージェントが家庭環境に関する質問に独立して答えるマルチエージェントフレームワークとして,EQAを考察する。
- 参考スコア(独自算出の注目度): 55.581423861790945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Question Answering (EQA) is an important problem, which involves an agent exploring the environment to answer user queries. In the existing literature, EQA has exclusively been studied in single-agent scenarios, where exploration can be time-consuming and costly. In this work, we consider EQA in a multi-agent framework involving multiple large language models (LLM) based agents independently answering queries about a household environment. To generate one answer for each query, we use the individual responses to train a Central Answer Model (CAM) that aggregates responses for a robust answer. Using CAM, we observe a $50\%$ higher EQA accuracy when compared against aggregation methods for ensemble LLM, such as voting schemes and debates. CAM does not require any form of agent communication, alleviating it from the associated costs. We ablate CAM with various nonlinear (neural network, random forest, decision tree, XGBoost) and linear (logistic regression classifier, SVM) algorithms. Finally, we present a feature importance analysis for CAM via permutation feature importance (PFI), quantifying CAMs reliance on each independent agent and query context.
- Abstract(参考訳): EQA(Embodied Question Answering)は,ユーザの質問に答える環境を探索するエージェントが関与する重要な問題である。
既存の文献では、EQAは単一のエージェントのシナリオでのみ研究されており、探索には時間と費用がかかる。
本研究では,複数の大規模言語モデル(LLM)をベースとしたエージェントが家庭環境に関する質問に独立して答えるマルチエージェントフレームワークのEQAについて検討する。
各クエリに対して1つの回答を生成するために、個々のレスポンスを使用して、堅牢な回答のためにレスポンスを集約するCAM(Central Answer Model)をトレーニングする。
CAM を用いて,投票方式や討論会など LLM の集約手法と比較した場合,50 % の EQA 精度が得られた。
CAMはいかなる種類のエージェント通信も必要とせず、関連するコストから軽減する。
我々は,CAMを非線形(神経ネットワーク,ランダムフォレスト,決定木,XGBoost)および線形(論理回帰分類器,SVM)アルゴリズムで吸収する。
最後に、置換特徴重要度(PFI)によるCAMの特徴重要度分析を行い、各独立したエージェントとクエリコンテキストに依存するCAMの定量化を行う。
関連論文リスト
- RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - S-EQA: Tackling Situational Queries in Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
まず, LLMの出力をラップして, ユニークな状況クエリのデータセットを作成する, 新規なPrompt-Generate-Evaluateスキームを提案する。
我々は,M-Turk上で大規模なユーザスタディによって生成されたデータセットを検証し,状況クエリでEQAに対処する最初のデータセットであるS-EQAとして紹介する。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based
Question Answering [62.14682452663157]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-of-Discussionフレームワークを提案する。
実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-26T05:31:34Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs
Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。
本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。
本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文 参考訳(メタデータ) (2023-04-27T01:48:03Z) - Answering Questions by Meta-Reasoning over Multiple Chains of Thought [56.74935116310892]
MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,複数の思考連鎖に対するメタ推論を促す手法である。
MCRは、異なる推論連鎖を調べ、それら間で情報を混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。
論文 参考訳(メタデータ) (2023-04-25T17:27:37Z) - Activity report analysis with automatic single or multispan answer
extraction [0.21485350418225244]
我々は,質問内容や質問内容に応じて,単一回答と複数回答のペアによる新しいスマートホーム環境データセットを作成する。
実験の結果,提案手法はデータセット上での最先端QAモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-09T06:33:29Z) - OneStop QAMaker: Extract Question-Answer Pairs from Text in a One-Stop
Approach [11.057028572260064]
本論文では,文書からQAペアを生成するOneStopというモデルを提案する。
具体的には、質問と対応する回答を同時に抽出する。
OneStopは、複雑なQA生成タスクを解決するために1つのモデルしか必要としないため、産業シナリオでトレーニングやデプロイを行うのがずっと効率的です。
論文 参考訳(メタデータ) (2021-02-24T08:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。