論文の概要: From Myopic Selection to Long-Horizon Awareness: Sequential LLM Routing for Multi-Turn Dialogue
- arxiv url: http://arxiv.org/abs/2604.12385v1
- Date: Tue, 14 Apr 2026 07:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.312805
- Title: From Myopic Selection to Long-Horizon Awareness: Sequential LLM Routing for Multi-Turn Dialogue
- Title(参考訳): 筋電図選択から長軸認識へ:多軸対話のための連続LLMルーティング
- Authors: Jiarui Zhang, Xiangyu Liu, Yong Hu, Chaoyue Niu, Hang Zeng, Shaojie Tang, Fan Wu, Guihai Chen,
- Abstract要約: マルチターン対話は大規模言語モデル(LLM)との相互作用の主要な形態である
既存のルーティング手法では、インタラクションダイナミクスと遅延報酬によるマルチターン対話における累積性能の最大化に失敗する。
本稿では,検索データから軽量なルーティングポリシを学習し,検索に基づく将来の状態近似を付加したDialを提案する。
- 参考スコア(独自算出の注目度): 46.226951683577916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn dialogue is the predominant form of interaction with large language models (LLMs). While LLM routing is effective in single-turn settings, existing methods fail to maximize cumulative performance in multi-turn dialogue due to interaction dynamics and delayed rewards. To address this challenge, we move from myopic, single-turn selection to long-horizon sequential routing for multi-turn dialogue. Accordingly, we propose DialRouter, which first performs MCTS to explore dialogue branches induced by different LLM selections and collect trajectories with high cumulative rewards. DialRouter then learns a lightweight routing policy from search-derived data, augmented with retrieval-based future state approximation, enabling multi-turn routing without online search. Experiments on both open-domain and domain-specific dialogue tasks across diverse candidate sets of both open-source and closed-source LLMs demonstrate that DialRouter significantly outperforms single LLMs and existing routing baselines in task success rate, while achieving a superior performance-cost trade-off when combined with a cost-aware reward.
- Abstract(参考訳): マルチターン対話は、大規模言語モデル(LLM)との相互作用の主要な形態である。
LLMルーティングはシングルターン設定では有効であるが,インタラクションダイナミクスと遅延報酬のため,既存の手法ではマルチターン対話における累積性能を最大化できない。
この課題に対処するために、我々は、ミオピック、シングルターン選択から、マルチターン対話のためのロングホライズンシーケンシャルルーティングに移行する。
そこでDialRouterは,まずMCTSを用いて,異なるLLM選択によって誘導される対話分岐を探索し,高い累積報酬でトラジェクトリを収集する。
DialRouterは、検索から派生したデータから軽量なルーティングポリシーを学び、検索に基づく将来の状態近似を付加し、オンライン検索なしでマルチターンルーティングを可能にする。
オープンソース LLM とクローズドソース LLM の様々な候補セット間のオープンドメインとドメイン固有の対話タスクの実験は、DialRouter が単一 LLM と既存のルーティングベースラインをタスク成功率で大幅に上回り、コストを意識した報酬と組み合わせることで、優れたパフォーマンスとコストのトレードオフを実現していることを示している。
関連論文リスト
- DiSRouter: Distributed Self-Routing for LLM Selections [23.38983740640377]
集中制御から分散ルーティングへ移行する新しいパラダイムであるDiS(Distributed Self-)を紹介する。
DiS では、クエリは LLM エージェントのネットワークを横切り、それぞれが自身の自己認識に基づいて他のエージェントに答えるかどうかを独立に決定する。
大規模な実験により、DiSは様々なシナリオで既存のルーティング方法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-10-22T03:36:40Z) - LLMAP: LLM-Assisted Multi-Objective Route Planning with User Preferences [31.10423199218523]
大規模言語モデル(LLM)の台頭により、リッチなユーザ目標を含む新たな研究領域を自然言語駆動で計画するルートが生まれている。
本稿では,自然言語を理解し,タスクを識別し,ユーザの好みを抽出するLLM-asタスクを提案する。
世界中の14の国と27の都市で、様々な複雑さでサンプリングされた1000のルーティングプロンプトを用いて広範な実験を行っている。
論文 参考訳(メタデータ) (2025-09-14T02:30:19Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [27.481573948464987]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。
RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。
バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文 参考訳(メタデータ) (2025-06-04T12:16:41Z) - RAGRouter: Learning to Route Queries to Multiple Retrieval-Augmented Language Models [45.58601993849455]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文 参考訳(メタデータ) (2025-05-29T03:44:56Z) - LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。