論文の概要: PARL-MT: Learning to Call Functions in Multi-Turn Conversation with Progress Awareness
- arxiv url: http://arxiv.org/abs/2509.23206v1
- Date: Sat, 27 Sep 2025 09:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.104058
- Title: PARL-MT: Learning to Call Functions in Multi-Turn Conversation with Progress Awareness
- Title(参考訳): PARL-MT:プログレッシブ・アウェアネスを用いた多言語会話における関数の呼び出し学習
- Authors: Huacan Chai, Zijie Cao, Maolin Ran, Yingxuan Yang, Jianghao Lin, pengxin, Hairui Wang, Renjie Ding, Ziyu Wan, Muning Wen, Weiwen Liu, Weinan Zhang, Fei Huang, Ying Wen,
- Abstract要約: マルチターン関数呼び出しのためのLLMトレーニングに進捗認識を明示的に組み込むフレームワークであるPARL-MTを導入する。
PARL-MTは既存の手法よりも優れており、堅牢で効率的なマルチターン関数呼び出しの実現における進捗認識の有効性を強調している。
- 参考スコア(独自算出の注目度): 55.084233266062256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved impressive success in single-turn function calling, yet real-world applications such as travel planning or multi-stage data analysis typically unfold across multi-turn conversations. In these settings, LLMs must not only issue accurate function calls at each step but also maintain progress awareness, the ability to summarize past interactions and plan future actions to ensure coherent, long-horizon task execution. Existing approaches, however, either reduce multi-turn training to isolated single-turn samples, which neglects task-level planning, or employ end-to-end reinforcement learning (RL) that struggles with redundancy and lacks explicit integration of progress awareness. To overcome these limitations, we introduce PARL-MT, a framework that explicitly incorporates progress awareness into LLM training for multi-turn function calling. PARL-MT combines (i) a Progress Awareness Generation (PAG) pipeline, which automatically constructs datasets coupling conversation summaries with future task planning, and (ii) a Progress Awareness-Guided Reinforcement Learning (PAG-RL) algorithm, which integrates progress awareness into RL training to reduce contextual redundancy and improve alignment between local actions and global task completion. Empirical results on two public benchmarks demonstrate that PARL-MT significantly outperforms existing methods, highlighting the effectiveness of progress awareness in enabling robust and efficient multi-turn function calling.
- Abstract(参考訳): 大規模言語モデル(LLM)は、単一のターン関数呼び出しにおいて、旅行計画やマルチステージデータ分析のような現実のアプリケーションにおいて、印象的な成功を収めている。
これらの設定では、LLMは各ステップで正確な関数呼び出しを発行するだけでなく、進捗認識、過去のインタラクションを要約し、一貫性のある長期タスク実行を保証するために将来のアクションを計画する能力も提供しなければなりません。
しかし、既存のアプローチでは、タスクレベルの計画を無視した孤立したシングルターンサンプルへのマルチターントレーニングを減らしたり、冗長性に苦慮し、進歩意識の明示的な統合を欠くエンドツーエンド強化学習(RL)を採用したりしている。
これらの制約を克服するため,マルチターン関数呼び出しのためのLLMトレーニングに進捗認識を明示的に組み込んだPARL-MTを導入する。
PARL-MT コンバイン
i)将来のタスク計画と会話要約を結合したデータセットを自動構築するプログレッシブ・アウェアネス・ジェネレーション(PAG)パイプライン
(II) プログレッシブ・アウェアネス指導型強化学習(PAG-RL) アルゴリズムは,プログレッシブ・アウェアネスをRLトレーニングに統合し,文脈的冗長性を低減し,局所行動とグローバルタスク完了の整合性を改善する。
2つの公開ベンチマークによる実証的な結果から、PARL-MTは既存の手法よりも大幅に優れており、堅牢で効率的なマルチターン関数呼び出しを実現するための進捗認識の有効性を強調している。
関連論文リスト
- MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。
テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。
我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文 参考訳(メタデータ) (2025-06-10T18:36:31Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Multi-Modal Self-Supervised Semantic Communication [52.76990720898666]
本稿では,マルチモーダルな自己教師型学習を活用し,タスク非依存の特徴抽出を強化するマルチモーダルセマンティックコミュニケーションシステムを提案する。
提案手法は,訓練関連通信オーバーヘッドを最小限に抑えつつ,モダリティの不変性とモダリティ特有の特徴の両方を効果的に捉えている。
この結果は、セマンティックコミュニケーションにおけるマルチモーダルな自己教師型学習の利点を浮き彫りにし、より効率的でスケーラブルなエッジ推論システムへの道を開いた。
論文 参考訳(メタデータ) (2025-03-18T06:13:02Z) - Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。
我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。
提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文 参考訳(メタデータ) (2025-02-26T16:52:31Z) - Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue [17.47550065558479]
強化学習(RL)はタスク指向対話(TOD)システムを強化するための強力なアプローチである。
既存のRL手法は主に生成タスクに焦点を合わせ、理解のために対話状態追跡(DST)を無視する傾向にある。
トークン生成全体でステップバイステップの報酬を導入し、RLを理解タスクと生成タスクの両方に拡張する。
論文 参考訳(メタデータ) (2024-06-20T16:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。