論文の概要: ORCH: many analyses, one merge-a deterministic multi-agent orchestrator for discrete-choice reasoning with EMA-guided routing
- arxiv url: http://arxiv.org/abs/2602.01797v1
- Date: Mon, 02 Feb 2026 08:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.008564
- Title: ORCH: many analyses, one merge-a deterministic multi-agent orchestrator for discrete-choice reasoning with EMA-guided routing
- Title(参考訳): ORCH:EMA誘導ルーティングによる離散選択推論のための多くの解析, 1つの決定論的マルチエージェントオーケストレータ
- Authors: Hanlin Zhou, Huah Yong Chan,
- Abstract要約: ORCHは異種言語モデルを編成する離散選択推論のためのフレームワークである。
タスクの分解と回答の集約に固定されたルールを使用し、パイプラインを予測可能、再現可能、トレーニング不要にする。
MMLU、MMLU-Pro、GSM8Kの実験では、ORCHは単一モデルベースラインと多数投票アンサンブルを一貫して上回っている。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large-scale language models (LLMs) have made multi-agent architectures attractive for challenging reasoning tasks. However, many existing systems rely on stochastic routing or ad-hoc heuristics, making their behavior difficult to reproduce and their decision process hard to interpret. We propose ORCH, a deterministic coordination framework for discrete-choice reasoning that orchestrates heterogeneous LLMs. ORCH follows a ``many analyses, one decision'' paradigm: multiple base models independently produce structured analyses, and a dedicated merge agent outputs the final choice. The framework uses fixed rules for task decomposition and answer aggregation, keeping the pipeline predictable, reproducible, and training-free. Determinism here refers to fixed routing and aggregation rules under a fixed evaluation protocol, rather than strict bit-level reproducibility across deployments. To exploit model complementarity, we optionally introduce an EMA-guided router that updates agent selection using historical accuracy, latency, or cost; since it relies on answer-based feedback, it is mainly intended for benchmarking, controlled evaluation, or delayed-feedback settings. Experiments on MMLU, MMLU-Pro, and GSM8K show that ORCH consistently outperforms single-model baselines and a majority-vote ensemble. On MMLU-Pro, ORCH improves accuracy by over 10 points compared to the strongest baseline, and on GSM8K it yields gains exceeding 50 points; McNemar tests confirm statistical significance. The EMA router provides an additional 0.7--2.0 point accuracy boost, and ablations show that both multi-agent collaboration and routing contribute substantially. Overall, ORCH offers a practical path toward controllable, interpretable, and deployment-ready LLM-based agent systems for discrete-choice reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、難解な推論タスクのためにマルチエージェントアーキテクチャを魅力的にしている。
しかし、既存のシステムの多くは確率的ルーティングやアドホックなヒューリスティックに依存しており、それらの振る舞いを再現しにくくし、意思決定プロセスの解釈を困難にしている。
異種LSMをオーケストレーションする離散選択推論のための決定論的協調フレームワークORCHを提案する。
複数のベースモデルが独立して構造化解析を生成し、専用のマージエージェントが最終選択を出力する。
このフレームワークは、タスクの分解と回答の集約に固定されたルールを使用し、パイプラインを予測可能、再現可能、トレーニング不要を維持している。
ここでの決定論は、デプロイメント間で厳密なビットレベルの再現性ではなく、固定評価プロトコルの下での固定されたルーティングと集約ルールを指す。
モデル補完性を活用するために,エージェント選択を過去の精度,レイテンシ,あるいはコストで更新するEMA誘導ルータを任意に導入する。
MMLU、MMLU-Pro、GSM8Kの実験では、ORCHは単一モデルベースラインと多数投票アンサンブルを一貫して上回っている。
MMLU-Proでは、ORCHは最強のベースラインに比べて10ポイント以上精度が向上し、GSM8Kでは50ポイントを超える利得が得られる。
EMAルータは0.7-2.0ポイントの精度向上を提供しており、マルチエージェントコラボレーションとルーティングの両方が大きく貢献していることを示している。
ORCHは全体として、個別選択推論のための制御可能、解釈可能、および展開可能なLCMベースのエージェントシステムへの実践的なパスを提供する。
関連論文リスト
- A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。
我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。
MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文 参考訳(メタデータ) (2026-01-19T17:23:45Z) - Multi-Agent LLM Orchestration Achieves Deterministic, High-Quality Decision Support for Incident Response [0.0]
大規模言語モデル(LLM)は、本番システムにおけるインシデント応答を加速することを約束する。
しかし、単一エージェントアプローチは曖昧で使用不能なレコメンデーションを生成する。
コンテナ化されたフレームワークであるMyAntFarm.aiを紹介し、マルチエージェントオーケストレーションがインシデント応答の品質を変えることを示す。
論文 参考訳(メタデータ) (2025-11-19T06:06:11Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。
進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。
R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文 参考訳(メタデータ) (2025-05-28T08:17:57Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [36.3918410061572]
MA-RAGは、複雑な情報探索タスクにおける固有の曖昧さと推論の問題に対処する。
エンドツーエンドの微調整や分離されたコンポーネント拡張に依存する従来のRAGメソッドとは異なり、MA-RAGは特別なAIエージェントの協調的なセットを編成する。
本結果は,検索強化システムにおける協調的,モジュール型推論の有効性を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - CP-Router: An Uncertainty-Aware Router Between LLM and LRM [15.980590561603256]
LLM(Large Language Models)は、単純なクエリであっても不要な長さの出力を生成する。
LLM と LRM を動的に選択する学習不要でモデルに依存しないルーティングフレームワーク CP- を提案する。
CP- は LRM のみを使用する場合と比較して、トークンの使用量を効率的に削減し、精度を維持または改善する。
論文 参考訳(メタデータ) (2025-05-26T13:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。