論文の概要: Task-Aware LLM Council with Adaptive Decision Pathways for Decision Support
- arxiv url: http://arxiv.org/abs/2601.22662v1
- Date: Fri, 30 Jan 2026 07:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.296905
- Title: Task-Aware LLM Council with Adaptive Decision Pathways for Decision Support
- Title(参考訳): 適応的決定経路を有するタスク対応LCM協議会による意思決定支援
- Authors: Wei Zhu, Lixing Yu, Hao-Ren Yao, Zhiwen Tang, Kun Yue,
- Abstract要約: Task-Aware LLM Council (TALC) はモンテカルロ木探索 (MCTS) と大規模言語モデルのカウンシルを統合している。
TALCは、強いベースラインよりも優れたタスク成功率と検索効率の向上を実現している。
- 参考スコア(独自算出の注目度): 6.468209380404613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown strong capabilities across diverse decision-making tasks. However, existing approaches often overlook the specialization differences among available models, treating all LLMs as uniformly applicable regardless of task characteristics. This limits their ability to adapt to varying reasoning demands and task complexities. In this work, we propose Task-Aware LLM Council (TALC), a task-adaptive decision framework that integrates a council of LLMs with Monte Carlo Tree Search (MCTS) to enable dynamic expert selection and efficient multi-step planning. Each LLM is equipped with a structured success memory profile derived from prior task trajectories, enabling semantic matching between current reasoning context and past successes. At each decision point, TALC routes control to the most contextually appropriate model and estimates node value using a dual-signal mechanism that fuses model-based evaluations with historical utility scores. These signals are adaptively weighted based on intra-node variance and used to guide MCTS selection, allowing the system to balance exploration depth with planning confidence. Experiments on WebShop, HumanEval, and the Game of 24 demonstrate that TALC achieves superior task success rates and improved search efficiency compared to strong baselines, validating the benefits of specialization-aware routing and adaptive planning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな意思決定タスクにまたがる強力な能力を示している。
しかし、既存のアプローチでは、利用可能なモデル間の特殊化の違いを見落とし、全てのLCMをタスク特性に関係なく均一に適用できるとみなすことが多い。
これにより、さまざまな推論要求やタスクの複雑さに適応する能力が制限される。
本研究では,LCMのカウンシルとモンテカルロ木探索(MCTS)を統合し,動的専門家の選択と効率的なマルチステップ計画を可能にするタスク適応型LCMカウンシル(TALC)を提案する。
各LSMは、以前のタスク軌跡から派生した構造化された成功メモリプロファイルを備えており、現在の推論コンテキストと過去の成功とのセマンティックマッチングを可能にする。
各決定点において、TALCは、制御を最も文脈的に適切なモデルにルートし、履歴ユーティリティスコアとモデルに基づく評価を融合させる二重信号機構を用いてノード値を推定する。
これらの信号は、ノード内分散に基づいて適応的に重み付けされ、MCTS選択を誘導するために使用され、システムは探索深度と計画信頼性のバランスをとることができる。
WebShop、HumanEval、Game of 24の実験では、TALCは強力なベースラインよりも優れたタスク成功率と検索効率の向上を実現し、特殊化対応ルーティングと適応計画の利点を検証している。
関連論文リスト
- BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - Towards Generalized Routing: Model and Agent Orchestration for Adaptive and Efficient Inference [37.57624773333661]
MoMA(Mixture of Models and Agents)は、大規模言語モデル(LLM)とエージェントベースのルーティングを統合するフレームワークである。
本稿では,異なるルーティングモデル構造下での各種LLMの能力を評価するためのトレーニングデータセットを提案する。
推論中、クエリは最高のコストパフォーマンス効率でLSMに動的にルーティングされる。
論文 参考訳(メタデータ) (2025-09-09T10:15:42Z) - INFERENCEDYNAMICS: Efficient Routing Across LLMs through Structured Capability and Knowledge Profiling [44.309917620936474]
InferenceDynamicsは、モデルの能力と知識をモデル化することによって、柔軟でスケーラブルな多次元ルーティングフレームワークである。
包括的データセットであるRouteMixで運用し、グループレベルのルーティングの有効性と一般化性を実証する。
論文 参考訳(メタデータ) (2025-05-22T06:56:51Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。