論文の概要: Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs
- arxiv url: http://arxiv.org/abs/2509.23166v1
- Date: Sat, 27 Sep 2025 07:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.079618
- Title: Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs
- Title(参考訳): LLMによる高機能マルチTurnインタラクションのためのテスト時間ポリシー適応
- Authors: Chenxing Wei, Hong Wang, Ying He, Fei Yu, Yao Shu,
- Abstract要約: T2PAM(Test-Time Policy Adaptation for Multi-Turn Interactions)について紹介する。
まず,ユーザのフィードバックを報奨信号として利用し,ユーザの嗜好に合致した潜在最適ポリシーを推定する,新しいパラダイムT2PAMを提案する。
次に,T2PAM を演算する軽量アルゴリズムであるOptimum-Referenced One-Step Adaptation (ROSA) を導入する。
- 参考スコア(独自算出の注目度): 20.892283201423048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) employ multi-turn interaction as a fundamental paradigm for completing complex tasks. However, their performance often degrades in extended interactions, as they are typically trained on static, single-turn data, which hinders their ability to adapt to real-time user feedback. To address this limitation, we first propose a new paradigm: Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), which utilizes user feedback from the ongoing interaction as a reward signal to estimate a latent optimal policy aligned with user preferences, then updates a small subset of parameters to steer the model toward this policy, ultimately enabling efficient in-conversation self-correction. We then introduce Optimum-Referenced One-Step Adaptation (ROSA), a lightweight algorithm that operationalizes T2PAM. ROSA guides the model parameters toward a theoretical optimal policy in a single, efficient update step, avoiding costly iterative gradient-based optimization and minimizing computational overhead. We provide a rigorous theoretical analysis guaranteeing that the policy of ROSA converges to the preference of user as the number of interactions increases. Extensive experiments on challenging benchmark demonstrate that ROSA achieves significant improvements in both task effectiveness and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なタスクを完了するための基本的なパラダイムとしてマルチターンインタラクションを採用している。
しかしながら、そのパフォーマンスは、通常、静的なシングルターンデータに基づいてトレーニングされ、リアルタイムのユーザフィードバックに適応する能力を妨げるため、拡張されたインタラクションにおいて劣化することが多い。
この制限に対処するため、我々はまずT2PAM(Test-Time Policy Adaptation for Multi-Turn Interactions)という新しいパラダイムを提案する。
次に,T2PAM を演算する軽量アルゴリズムであるOptimum-Referenced One-Step Adaptation (ROSA) を導入する。
ROSAは、モデルパラメータを1つの効率的な更新ステップで理論的最適ポリシーへ誘導し、コストのかかる反復的な勾配ベースの最適化を回避し、計算オーバーヘッドを最小限にする。
ROSAのポリシーがユーザの好みに収束することを保証する厳密な理論分析を提供する。
挑戦的なベンチマークに関する大規模な実験は、ROSAがタスクの有効性と効率の両方において大幅な改善を達成していることを示している。
関連論文リスト
- Value-Free Policy Optimization via Reward Partitioning [0.08192907805418585]
単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-16T17:06:27Z) - Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文 参考訳(メタデータ) (2025-05-16T05:58:26Z) - C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。