Fugu-MT 論文翻訳(概要): AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit

論文の概要: AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit

arxiv url: http://arxiv.org/abs/2409.13447v2
Date: Mon, 23 Sep 2024 08:43:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 07:04:14.300457
Title: AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit
Title（参考訳）: AQA: 文脈多元帯域を用いたLCM社会における適応的質問回答
Authors: Mohanna Hoveyda, Arjen P. de Vries, Maarten de Rijke, Harrie Oosterhuis, Faegheh Hasibi,
Abstract要約: 質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
参考スコア（独自算出の注目度）: 59.10281630985958
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In question answering (QA), different questions can be effectively addressed with different answering strategies. Some require a simple lookup, while others need complex, multi-step reasoning to be answered adequately. This observation motivates the development of a dynamic method that adaptively selects the most suitable QA strategy for each question, enabling more efficient and effective systems capable of addressing a broader range of question types. To this aim, we build on recent advances in the orchestration of multiple large language models (LLMs) and formulate adaptive QA as a dynamic orchestration challenge. We define this as a contextual multi-armed bandit problem, where the context is defined by the characteristics of the incoming question and the action space consists of potential communication graph configurations among the LLM agents. We then train a linear upper confidence bound model to learn an optimal mapping between different question types and their corresponding optimal multi-LLM communication graph representation. Our experiments show that the proposed solution is viable for adaptive orchestration of a QA system with multiple modules, as it combines the superior performance of more complex strategies while avoiding their costs when simpler strategies suffice.
Abstract（参考訳）: 質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。単純なルックアップを必要とするものもあれば、適切に答えるためには複雑で多段階の推論を必要とするものもある。この観察は、各質問に対して最適なQA戦略を適応的に選択する動的手法の開発を動機付け、より広範囲の質問に対処できるより効率的で効果的なシステムを実現する。本研究の目的は,複数の大規模言語モデル (LLM) のオーケストレーションにおける最近の進歩を基盤として,動的オーケストレーションの課題として適応型QAを定式化することである。我々はこれを文脈的マルチアームバンディット問題と定義し、コンテキストは入ってくる質問の特徴によって定義され、アクション空間はLLMエージェント間の潜在的な通信グラフ構成から構成される。次に、線形上層信頼度境界モデルを用いて、異なる質問型とそれに対応する最適マルチLLM通信グラフ表現の最適マッピングを学習する。提案手法は,より単純な戦略が十分であればコストを抑えつつ,より複雑な戦略の優れた性能を両立させるため,複数のモジュールによるQAシステムの適応的オーケストレーションに有効であることを示す。

関連論文リスト

The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。 WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文参考訳（メタデータ） (2025-07-16T06:41:03Z)
Online Multi-LLM Selection via Contextual Bandits under Unstructured Context Evolution [31.385024956599676]
大規模言語モデル(LLM)は多様な応答挙動、コスト、強度を示す。我々はLinUCBに基づくアルゴリズムを開発し、将来の文脈予測に頼ることなく、確実にサブ線形後悔を実現する。私たちのアルゴリズムは理論的に根拠があり、オフラインの微調整やデータセット固有のトレーニングは必要ありません。
論文参考訳（メタデータ） (2025-06-21T10:01:46Z)
Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文参考訳（メタデータ） (2025-06-06T23:13:08Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Preference Elicitation for Multi-objective Combinatorial Optimization with Active Learning and Maximum Likelihood Estimation [8.033273941848254]
現実の最適化問題には、価格、製品品質、持続可能性など、相反する目標が伴うことが多い。複数の目的に対処する計算効率のよい方法は、それらを線形結合のような単目的関数に集約することである。 Constructive Preference Elicitationフレームワークを構築し、これらの3つのプロパティをどのように改善できるかを示す。
論文参考訳（メタデータ） (2025-03-14T14:24:27Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Dynamic Multi-Agent Orchestration and Retrieval for Multi-Source Question-Answer Systems using Large Language Models [0.0]
本稿では,大規模言語モデル(LLM)検索におけるいくつかの高度な手法を組み合わせて,堅牢で多ソースな問合せシステムの開発を支援する手法を提案する。この手法は、協調型マルチエージェントオーケストレーションと動的検索アプローチにより、多様なデータソースからの情報を統合するように設計されている。提案手法は応答精度と妥当性を向上し,質問応答システムを開発するための汎用的でスケーラブルなフレームワークを提供する。
論文参考訳（メタデータ） (2024-12-23T20:28:20Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Optimal Decision Making Through Scenario Simulations Using Large Language Models [0.0]
大規模言語モデル(LLM)は、複雑な問題へのアプローチと解決の方法を変えました。本稿では,この能力ギャップを橋渡しする革新的な手法を提案する。 LLMがユーザから複数のオプションとそれぞれのパラメータをリクエストできるようにすることで、動的フレームワークを導入しています。この関数は提供された選択肢を分析し、潜在的な結果をシミュレートし、最も有利な解を決定するように設計されている。
論文参考訳（メタデータ） (2024-07-09T01:23:09Z)
An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。 MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文参考訳（メタデータ） (2024-07-05T02:01:49Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering [55.295699268654545]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-of-Discussionフレームワークを提案する。実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文参考訳（メタデータ） (2024-02-26T05:31:34Z)
In-Context Ability Transfer for Question Decomposition in Complex QA [6.745884231594893]
複雑な問合せ課題を解決するために,icat(In-Context Ability Transfer)を提案する。複雑な質問を単純な質問に分解したり、ステップバイステップの合理性をLSMに生成することができる。本研究では, 数値推論, 構成複素QA, 不均一複素QAを含む多種多様な複雑なQAタスクについて大規模に実験を行った。
論文参考訳（メタデータ） (2023-10-26T11:11:07Z)
How Many Answers Should I Give? An Empirical Study of Multi-Answer Reading Comprehension [64.76737510530184]
我々は、一般的に見られるマルチアンサーMRCインスタンスを分類するために分類を設計する。我々は、現在のマルチ・アンサー・MCCモデルのパラダイムが、異なるタイプのマルチ・アンサー・インスタンスをどのように扱うかを分析する。
論文参考訳（メタデータ） (2023-06-01T08:22:21Z)
Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文参考訳（メタデータ） (2023-02-23T18:58:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。