論文の概要: Multi-LLM QA with Embodied Exploration
- arxiv url: http://arxiv.org/abs/2406.10918v5
- Date: Fri, 18 Oct 2024 12:27:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:37.329080
- Title: Multi-LLM QA with Embodied Exploration
- Title(参考訳): Embodied Exploration を用いたマルチLLMQA
- Authors: Bhrij Patel, Vishnu Sashank Dorbala, Amrit Singh Bedi, Dinesh Manocha,
- Abstract要約: 未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
- 参考スコア(独自算出の注目度): 55.581423861790945
- License:
- Abstract: Large language models (LLMs) have grown in popularity due to their natural language interface and pre trained knowledge, leading to rapidly increasing success in question-answering (QA) tasks. More recently, multi-agent systems with LLM-based agents (Multi-LLM) have been utilized increasingly more for QA. In these scenarios, the models may each answer the question and reach a consensus or each model is specialized to answer different domain questions. However, most prior work dealing with Multi-LLM QA has focused on scenarios where the models are asked in a zero-shot manner or are given information sources to extract the answer. For question answering of an unknown environment, embodied exploration of the environment is first needed to answer the question. This skill is necessary for personalizing embodied AI to environments such as households. There is a lack of insight into whether a Multi-LLM system can handle question-answering based on observations from embodied exploration. In this work, we address this gap by investigating the use of Multi-Embodied LLM Explorers (MELE) for QA in an unknown environment. Multiple LLM-based agents independently explore and then answer queries about a household environment. We analyze different aggregation methods to generate a single, final answer for each query: debating, majority voting, and training a central answer module (CAM). Using CAM, we observe a $46\%$ higher accuracy compared against the other non-learning-based aggregation methods. We provide code and the query dataset for further research.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自然言語インタフェースと事前訓練された知識によって人気が高まり、質問応答(QA)タスクが急速に成功した。
近年,LLMをベースとしたマルチエージェントシステム (Multi-LLM) がQAにますます活用されている。
これらのシナリオでは、モデルはそれぞれ質問に答え、コンセンサスに達するかもしれません。
しかし、Multi-LLM QAを扱う以前の作業は、モデルがゼロショットで質問されたり、回答を抽出するために情報ソースが与えられたりするシナリオに焦点を当てていた。
未知の環境に対する質問応答には,まずその質問に答えるために,環境の具体的探索が必要である。
このスキルは、インボディードAIを家庭などの環境にパーソナライズするために必要である。
具体的探索による観察に基づいて,マルチLLMシステムが質問応答を処理できるかどうかについての知見は乏しい。
本研究では、未知環境におけるQAに対するマルチエンボディードLLMエクスプローラー(MELE)の利用を調査することで、このギャップに対処する。
複数のLCMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
我々は,各問合せに対して1つの最終回答を生成するために,各問合せについて,議論,多数決,中央解答モジュール(CAM)の訓練を行うために,異なる集約手法を分析した。
CAMを用いて,他の非学習型アグリゲーション法と比較して,46 %=高い精度を観察した。
さらなる研究のためにコードとクエリデータセットを提供します。
関連論文リスト
- RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - S-EQA: Tackling Situational Queries in Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
まず, LLMの出力をラップして, ユニークな状況クエリのデータセットを作成する, 新規なPrompt-Generate-Evaluateスキームを提案する。
我々は,M-Turk上で大規模なユーザスタディによって生成されたデータセットを検証し,状況クエリでEQAに対処する最初のデータセットであるS-EQAとして紹介する。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based
Question Answering [62.14682452663157]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-of-Discussionフレームワークを提案する。
実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-26T05:31:34Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs
Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。
本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。
本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文 参考訳(メタデータ) (2023-04-27T01:48:03Z) - Answering Questions by Meta-Reasoning over Multiple Chains of Thought [56.74935116310892]
MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,複数の思考連鎖に対するメタ推論を促す手法である。
MCRは、異なる推論連鎖を調べ、それら間で情報を混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。
論文 参考訳(メタデータ) (2023-04-25T17:27:37Z) - Activity report analysis with automatic single or multispan answer
extraction [0.21485350418225244]
我々は,質問内容や質問内容に応じて,単一回答と複数回答のペアによる新しいスマートホーム環境データセットを作成する。
実験の結果,提案手法はデータセット上での最先端QAモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-09T06:33:29Z) - OneStop QAMaker: Extract Question-Answer Pairs from Text in a One-Stop
Approach [11.057028572260064]
本論文では,文書からQAペアを生成するOneStopというモデルを提案する。
具体的には、質問と対応する回答を同時に抽出する。
OneStopは、複雑なQA生成タスクを解決するために1つのモデルしか必要としないため、産業シナリオでトレーニングやデプロイを行うのがずっと効率的です。
論文 参考訳(メタデータ) (2021-02-24T08:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。