論文の概要: AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit
- arxiv url: http://arxiv.org/abs/2409.13447v2
- Date: Mon, 23 Sep 2024 08:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:04:14.300457
- Title: AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit
- Title(参考訳): AQA: 文脈多元帯域を用いたLCM社会における適応的質問回答
- Authors: Mohanna Hoveyda, Arjen P. de Vries, Maarten de Rijke, Harrie Oosterhuis, Faegheh Hasibi,
- Abstract要約: 質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。
提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
- 参考スコア(独自算出の注目度): 59.10281630985958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In question answering (QA), different questions can be effectively addressed with different answering strategies. Some require a simple lookup, while others need complex, multi-step reasoning to be answered adequately. This observation motivates the development of a dynamic method that adaptively selects the most suitable QA strategy for each question, enabling more efficient and effective systems capable of addressing a broader range of question types. To this aim, we build on recent advances in the orchestration of multiple large language models (LLMs) and formulate adaptive QA as a dynamic orchestration challenge. We define this as a contextual multi-armed bandit problem, where the context is defined by the characteristics of the incoming question and the action space consists of potential communication graph configurations among the LLM agents. We then train a linear upper confidence bound model to learn an optimal mapping between different question types and their corresponding optimal multi-LLM communication graph representation. Our experiments show that the proposed solution is viable for adaptive orchestration of a QA system with multiple modules, as it combines the superior performance of more complex strategies while avoiding their costs when simpler strategies suffice.
- Abstract(参考訳): 質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
単純なルックアップを必要とするものもあれば、適切に答えるためには複雑で多段階の推論を必要とするものもある。
この観察は、各質問に対して最適なQA戦略を適応的に選択する動的手法の開発を動機付け、より広範囲の質問に対処できるより効率的で効果的なシステムを実現する。
本研究の目的は,複数の大規模言語モデル (LLM) のオーケストレーションにおける最近の進歩を基盤として,動的オーケストレーションの課題として適応型QAを定式化することである。
我々はこれを文脈的マルチアームバンディット問題と定義し、コンテキストは入ってくる質問の特徴によって定義され、アクション空間はLLMエージェント間の潜在的な通信グラフ構成から構成される。
次に、線形上層信頼度境界モデルを用いて、異なる質問型とそれに対応する最適マルチLLM通信グラフ表現の最適マッピングを学習する。
提案手法は,より単純な戦略が十分であればコストを抑えつつ,より複雑な戦略の優れた性能を両立させるため,複数のモジュールによるQAシステムの適応的オーケストレーションに有効であることを示す。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Optimal Decision Making Through Scenario Simulations Using Large Language Models [0.0]
大規模言語モデル(LLM)は、複雑な問題へのアプローチと解決の方法を変えました。
本稿では,この能力ギャップを橋渡しする革新的な手法を提案する。
LLMがユーザから複数のオプションとそれぞれのパラメータをリクエストできるようにすることで、動的フレームワークを導入しています。
この関数は提供された選択肢を分析し、潜在的な結果をシミュレートし、最も有利な解を決定するように設計されている。
論文 参考訳(メタデータ) (2024-07-09T01:23:09Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering [55.295699268654545]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-of-Discussionフレームワークを提案する。
実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-26T05:31:34Z) - In-Context Ability Transfer for Question Decomposition in Complex QA [6.745884231594893]
複雑な問合せ課題を解決するために,icat(In-Context Ability Transfer)を提案する。
複雑な質問を単純な質問に分解したり、ステップバイステップの合理性をLSMに生成することができる。
本研究では, 数値推論, 構成複素QA, 不均一複素QAを含む多種多様な複雑なQAタスクについて大規模に実験を行った。
論文 参考訳(メタデータ) (2023-10-26T11:11:07Z) - How Many Answers Should I Give? An Empirical Study of Multi-Answer
Reading Comprehension [64.76737510530184]
我々は、一般的に見られるマルチアンサーMRCインスタンスを分類するために分類を設計する。
我々は、現在のマルチ・アンサー・MCCモデルのパラダイムが、異なるタイプのマルチ・アンサー・インスタンスをどのように扱うかを分析する。
論文 参考訳(メタデータ) (2023-06-01T08:22:21Z) - Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。