論文の概要: ICPO: Illocution-Calibrated Policy Optimization for Multi-Turn Conversation
- arxiv url: http://arxiv.org/abs/2601.15330v1
- Date: Tue, 20 Jan 2026 04:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.353428
- Title: ICPO: Illocution-Calibrated Policy Optimization for Multi-Turn Conversation
- Title(参考訳): ICPO: Illocution-Calibrated Policy Optimization for Multi-Turn Conversation
- Authors: Zhebo Wang, Xiaohu Mu, Zijie Zhou, Mohan Li, Wenpeng Xing, Dezhang Kong, Meng Han,
- Abstract要約: マルチターン会話におけるLarge Language Models (LLM) は、しばしば会話中に失われる現象に悩まされる。
Reinforcement Learning with Verifiable Rewards (RLVR)のような標準のポストトレーニング技術がこの問題を悪化させることに気付きました。
Illocution-Calibrated Policy Optimization (ICPO) を提案する。
- 参考スコア(独自算出の注目度): 21.69212076688903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) in multi-turn conversations often suffer from a ``lost-in-conversation'' phenomenon, where they struggle to recover from early incorrect assumptions, particularly when users provide ambiguous initial instructions. We find that standard post-training techniques like Reinforcement Learning with Verifiable Rewards (RLVR) exacerbate this issue by rewarding confident, direct answers, thereby inducing overconfidence and discouraging the model from seeking clarification. To address this, we propose Illocution-Calibrated Policy Optimization (ICPO), a novel training framework that sensitizes the model to instruction ambiguity. ICPO augments the training corpus with underspecified prompts and conditions the reward signal on the user's illocutionary intent, rewarding the model for expressing uncertainty or asking for clarification when faced with ambiguity. Experiments demonstrate that ICPO fosters appropriate humility, yielding a substantial average improvement of 75\% in multi-turn conversation, while preserving robust performance on single-turn benchmarks. Our work presents a practical path toward more robust and collaborative conversational AI that can better navigate the nuances of human interaction.
- Abstract(参考訳): マルチターン会話におけるLarge Language Model (LLM) はしばしば 'lost-in-conversation' 現象に悩まされる。
RLVR(Reinforcement Learning with Verifiable Rewards)のような標準的なポストトレーニング技術は、自信と直接的な回答を報い、自信過剰を誘発し、モデルの明確化を阻止することで、この問題を悪化させる。
そこで本研究では,そのモデルにあいまいさを指示する新たなトレーニングフレームワークであるIllocution-Calibrated Policy Optimization (ICPO)を提案する。
ICPOは、未特定のプロンプトでトレーニングコーパスを強化し、不確実性を表現したり、あいまいさに直面したときに明確化を求めるモデルに報酬を与える。
実験の結果、ICPOは適切な謙虚さを育み、マルチターンでの会話では75倍の実質的な平均改善を実現し、シングルターンベンチマークでは堅牢なパフォーマンスを維持した。
私たちの研究は、人間のインタラクションのニュアンスをよりうまくナビゲートできる、より堅牢で協調的な会話型AIへの実践的な道を示す。
関連論文リスト
- Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning [66.52010873968383]
本稿では,RL学習を通じて学習した探索的,適応的な行動を可能にする,交互に探索と推論をインターリーブする対話エージェントを提案する。
広く使われている4つの対話型ベンチマークによる実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-19T14:55:54Z) - SpeakRL: Synergizing Reasoning, Speaking, and Acting in Language Models with Reinforcement Learning [46.70182219204539]
SpeakRLは、エージェントの会話能力を高めるための強化学習(RL)手法である。
本稿では,会話行動に対する報酬設計の体系的分析を行い,行動に対する質問のバランスをとるための指導者のための原則的報酬定式化を提案する。
論文 参考訳(メタデータ) (2025-12-15T10:08:53Z) - DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model [65.93900011975238]
DELULUは、話者を意識した、検証、ダイアリゼーション、プロファイリングのための基礎モデルである。
マスク付き予測と妄想を組み合わせ、堅牢性と一般化をさらに強化する2つの目的を用いて訓練される。
以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-10-20T15:35:55Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話モデリングにおけるデータ効率のよい対話ポリシー学習を可能にする。
動作ラベルがない場合でも、データ効率のよいチューニングシナリオにおいてACTの有効性を実証する。
また,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - An Adversarially-Learned Turing Test for Dialog Generation Models [45.991035017908594]
本研究では,人間による応答から機械生成応答を識別する頑健なモデルであるATTを学習するための対人訓練手法を提案する。
従来の摂動に基づく手法とは対照的に,我々の判別器は,制限のない多種多様な対向例を反復的に生成することによって訓練されている。
識別器は,DialoGPTやGPT-3などの強力な攻撃者に対して高い精度を示す。
論文 参考訳(メタデータ) (2021-04-16T17:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。