論文の概要: Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling
- arxiv url: http://arxiv.org/abs/2504.13592v1
- Date: Fri, 18 Apr 2025 09:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 16:20:15.231394
- Title: Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling
- Title(参考訳): インテント検出における一般化の改善:Reward-based Curriculum Smplingを用いたGRPO
- Authors: Zihao Feng, Xiaoxue Wang, Ziwei Bai, Donghang Su, Bowen Wu, Qun Yu, Baoxun Wang,
- Abstract要約: ゼロショットの修正のような既存のアプローチは、目に見えない意図でパフォーマンス劣化と戦っている。
我々は,RL(Reinforcement Learning)とRCS(Reward-based Curriculum Smpling)を併用して,意図検出タスクにおけるグループ相対政策最適化トレーニングを行う。
- 参考スコア(独自算出の注目度): 5.321647713109401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intent detection, a critical component in task-oriented dialogue (TOD) systems, faces significant challenges in adapting to the rapid influx of integrable tools with complex interrelationships. Existing approaches, such as zero-shot reformulations and LLM-based dynamic recognition, struggle with performance degradation when encountering unseen intents, leading to erroneous task routing. To enhance the model's generalization performance on unseen tasks, we employ Reinforcement Learning (RL) combined with a Reward-based Curriculum Sampling (RCS) during Group Relative Policy Optimization (GRPO) training in intent detection tasks. Experiments demonstrate that RL-trained models substantially outperform supervised fine-tuning (SFT) baselines in generalization. Besides, the introduction of the RCS, significantly bolsters the effectiveness of RL in intent detection by focusing the model on challenging cases during training. Moreover, incorporating Chain-of-Thought (COT) processes in RL notably improves generalization in complex intent detection tasks, underscoring the importance of thought in challenging scenarios. This work advances the generalization of intent detection tasks, offering practical insights for deploying adaptable dialogue systems.
- Abstract(参考訳): タスク指向対話(TOD)システムにおいて重要なコンポーネントであるインテント検出は、複雑な相互関係を持つ統合可能なツールの急速な流入に適応する上で大きな課題に直面している。
ゼロショット修正やLLMベースの動的認識といった既存のアプローチは、目に見えない意図に遭遇する際のパフォーマンス劣化に悩まされ、誤ったタスクルーティングに繋がる。
そこで本研究では,RL(Reinforcement Learning)とRCS(Reward-based Curriculum Smpling)を併用して,目的検出タスクにおけるGRPO(Group Relative Policy Optimization)トレーニングを行う。
実験により、RL学習モデルは一般化において教師付き微調整(SFT)ベースラインを大幅に上回っていることが示された。
さらに、RCSの導入により、トレーニング中の課題にモデルを集中させることにより、意図検出におけるRLの有効性が著しく向上する。
さらに、RLにChain-of-Thought(COT)プロセスを導入することで、複雑な意図検出タスクの一般化が向上し、挑戦的なシナリオにおける思考の重要性が強調される。
この研究は意図検出タスクの一般化を推進し、適応可能な対話システムを展開するための実践的な洞察を提供する。
関連論文リスト
- AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - Towards Large-Scale In-Context Reinforcement Learning by Meta-Training in Randomized Worlds [35.652208216209985]
In-Context Reinforcement Learning (ICRL)により、エージェントは対話的な体験から自動的に、そしてオンザフライで学習することができる。
我々はAnyMDPという手続き的に生成されたマルコフ決定プロセスを提案する。
この結果から,AnyMDPタスクの大規模化により,提案モデルがトレーニングセットでは考慮されなかったタスクに一般化できることが示唆された。
論文 参考訳(メタデータ) (2025-02-05T03:59:13Z) - Toward Task Generalization via Memory Augmentation in Meta-Reinforcement Learning [43.69919534800985]
強化学習(RL)では、エージェントは訓練中に遭遇したタスクと異なるタスクをうまくこなすのに苦労することが多い。
この制限は、多種多様な動的タスク設定におけるRLの広範な展開に課題をもたらす。
タスクの一般化を改善するためのメモリベースRLアプローチであるメモリ拡張を導入する。
論文 参考訳(メタデータ) (2025-02-03T17:00:19Z) - Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments [43.144056801987595]
本研究では,ガイド付きメタRLと重要サンプリング(IS)を統合し,トレーニング分布を最適化する新たなトレーニングフレームワークを提案する。
現実世界のデータセットから自然な分布を推定することにより、このフレームワークは、共通および極端な駆動シナリオ間のバランスのとれたフォーカスを保証する。
論文 参考訳(メタデータ) (2024-07-22T17:57:12Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。