論文の概要: Bridging Reasoning and Action: Hybrid LLM-RL Framework for Efficient Cross-Domain Task-Oriented Dialogue
- arxiv url: http://arxiv.org/abs/2604.23345v1
- Date: Sat, 25 Apr 2026 15:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.28494
- Title: Bridging Reasoning and Action: Hybrid LLM-RL Framework for Efficient Cross-Domain Task-Oriented Dialogue
- Title(参考訳): ブリジング推論とアクション:効率的なクロスドメインタスク指向対話のためのハイブリッドLLM-RLフレームワーク
- Authors: Yangyang Zhao, Linfan Dai, Li Cai, Bowen Xing, Libo Qin,
- Abstract要約: 大きな言語モデル(LLM)は制約を推測できるが、長い地平線上では信頼性が低い。
強化学習 (Reinforcement Learning, RL) は, 自然な対話から制約を回復することができない長時間水平動作を最適化する。
本稿では,LLM由来制約推論をRLに用いるハイブリッドフレームワークであるVLK-RL(Verified LLM-Knowledge empowered RL)を提案する。
- 参考スコア(独自算出の注目度): 23.90869525503871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain task-oriented dialogue requires reasoning over implicit and explicit feasibility constraints while planning long-horizon, multi-turn actions. Large language models (LLMs) can infer such constraints but are unreliable over long horizons, while Reinforcement learning (RL) optimizes long-horizon behavior yet cannot recover constraints from raw dialogue. Naively coupling LLMs with RL is therefore brittle: unverified or unstructured LLM outputs can corrupt state representations and misguide policy learning. Motivated by this, we propose Verified LLM-Knowledge empowered RL (VLK-RL), a hybrid framework that makes LLM-derived constraint reasoning usable for RL. VLK-RL first elicits candidate constraints with an LLM and then verifies them via a dual-role cross-examination procedure to suppress hallucinations and cross-turn inconsistencies. The verified constraints are mapped into ontology-aligned slot-value representations, yielding a structured, constraint-aware state for RL policy optimization. Experiments across multiple benchmarks demonstrate that VLK-RL significantly improves generalization and robustness, outperforming strong single-model baselines on long-horizon tasks.
- Abstract(参考訳): ドメイン間タスク指向の対話では、長期にわたるマルチターンアクションを計画している間、暗黙的かつ明示的な実行可能性制約を推論する必要がある。
大規模言語モデル(LLM)はそのような制約を推測できるが、長い水平線上では信頼性が低い。
したがって、LLMとRLをネイティブに結合することは不安定であり、未検証または未構造化のLLM出力は状態表現や誤った政策学習を損なう可能性がある。
そこで我々は,LLMに基づく制約推論をRLに用いるハイブリッドフレームワークであるVerified LLM-Knowledge empowered RL (VLK-RL)を提案する。
VLK-RL はまず LLM に候補制約を課し、その後、幻覚や交叉不整合を抑えるために二重ロールの相互検査手順によって検証する。
検証された制約はオントロジーに整合したスロット値表現にマッピングされ、RLポリシー最適化のための構造化された制約対応状態が得られる。
複数のベンチマークによる実験により、VLK-RLは一般化とロバスト性を大幅に向上し、長い水平タスクにおいて強い単一モデルベースラインを上回ります。
関連論文リスト
- Reinforcing Structured Chain-of-Thought for Video Understanding [49.3086326382764]
概要駆動強化学習(SDRL)を紹介する。
SDRLは、Supervised Fine-Tuning (SFT)の必要性を回避したシングルステージのRLフレームワークである。
提案手法は、7つの公開ビデオQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2026-03-26T22:11:14Z) - Are LLMs The Way Forward? A Case Study on LLM-Guided Reinforcement Learning for Decentralized Autonomous Driving [9.255259913388096]
小規模でローカルに展開されたLarge Language Models (LLMs) は、直接制御ではなく報酬形成を通じて自動運転を支援することができる。
RLのみ, LLMのみ, ハイブリッドアプローチの比較を行った。
以上の結果から,RLのみのエージェントは適度な効率で適度な成功率(73-89%)を達成でき,LSMのみのエージェントは高い成功率(最大94%)を達成できた。
論文 参考訳(メタデータ) (2025-11-16T19:31:42Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Think Twice, Act Once: A Co-Evolution Framework of LLM and RL for Large-Scale Decision Making [9.34311343273189]
Agents Co-Evolution (ACE)は大規模言語モデル(LLM)と強化学習(RL)の相乗的フレームワークである
ACEは、LDMがRLのトレーニング中にポリシーアクターとバリュークリティカルの両方として機能するデュアルロール軌道改善機構を導入している。
動作空間が60Kを超える複数の電力グリッド操作実験を通じて、ACEは既存のRL法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-03T06:52:37Z) - Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - Beyond Numeric Rewards: In-Context Dueling Bandits with LLM Agents [25.825941077332182]
In-Context Reinforcement Learning(ICRL)は、基盤モデル時代の強化学習(RL)問題を解決するフロンティアパラダイムである。
本稿では,Large Language Models (LLMs) が,Dueling Bandits (DB) 問題の下で ICRL を実現するためにクロスドメインを一般化できるかどうかを検討する。
LEADは従来のDBアルゴリズムから受け継がれた理論的保証を持つことを示す。
論文 参考訳(メタデータ) (2024-07-02T02:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。