論文の概要: Dialogue Model Optimization via Agent Game and Adaptive Tree-based GRPO
- arxiv url: http://arxiv.org/abs/2602.08533v1
- Date: Mon, 09 Feb 2026 11:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.194503
- Title: Dialogue Model Optimization via Agent Game and Adaptive Tree-based GRPO
- Title(参考訳): エージェントゲームと適応木に基づくGRPOによる対話モデル最適化
- Authors: Kun Peng, Conghui Tan, Yu Liu, Guohua Tang, Zhongqian Sun, Wei Yang, Zining Zhu, Lei Jiang, Yanbing Liu, Hao Peng,
- Abstract要約: オープンエンド対話エージェントは、ユーザの特性に適応して、エンゲージメントでパーソナライズされた対話を提供することを目的としている。
本稿では,オンラインパーソナライズと適応木に基づくグループ相対的ポリシー最適化を統合した新しい長軸フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.784541601653128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-ended dialogue agents aim to deliver engaging, personalized interactions by adapting to users' traits, but existing methods face critical limitations: over-reliance on pre-collected user data, and short-horizon biases in reinforcement learning (RL) that neglect long-term dialogue value. To address these, we propose a novel long-horizon RL framework integrating online personalization with Adaptive Tree-based Group Relative Policy Optimization (AT-GRPO). Adopting a two-agent game paradigm, a user agent constructs dynamic environments via style mimicry (learning user-specific conversational traits) and active termination (predicting turn-level termination probabilities as immediate rewards), forming an iterative cycle that drives the dialogue agent to deepen interest exploration. AT-GRPO reinterprets dialogue trajectories as trees and introduces adaptive observation ranges. Unlike full tree expansion that incurs exponential overhead, it limits each node to aggregate rewards from a stage-aware range: larger ranges support early-stage topic exploration, while smaller ranges facilitate late-stage dialogue maintenance. This design reduces rollout budgets from exponential to polynomial in the dialogue length, while preserving long-term reward capture. Extensive experiments show our framework's superior performance, sample efficiency, and robustness.
- Abstract(参考訳): オープンエンドダイアログエージェントは、ユーザの特性に適応して、エンゲージメントでパーソナライズされた対話を提供することを目的としているが、既存の手法では、事前コンパイルされたユーザデータへの過度な依存や、長期的な対話価値を無視した強化学習(RL)における短水平バイアスといった、重要な制限に直面している。
そこで本研究では,オンラインパーソナライズと適応木に基づくグループ相対ポリシー最適化(AT-GRPO)を統合した,新しい長期RLフレームワークを提案する。
2エージェントゲームパラダイムを採用すると、ユーザエージェントは、スタイル模倣(ユーザ固有の会話特性の学習)とアクティブ終了(即時報酬としてターンレベルの終了確率を予測する)を通じて動的環境を構築し、対話エージェントを興味ある探索に駆り立てる反復サイクルを形成する。
AT-GRPOは、対話軌跡を木として再解釈し、適応的な観察範囲を導入する。
指数的オーバーヘッドを発生させるフルツリー拡張とは異なり、各ノードはステージ認識範囲から報酬を集約する制限がある。
この設計は、長期の報酬獲得を保ちながら、対話長の指数関数から多項式へのロールアウト予算を削減する。
大規模な実験は、我々のフレームワークの優れたパフォーマンス、サンプル効率、堅牢性を示している。
関連論文リスト
- IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning [54.21689544323704]
Deep Research (DR)エージェントは、パラメトリック知識を超えてLarge Language Models (LLM)を拡張する。
リアルタイムの会話アシスタントとは異なり、DRは計算に高価で時間を要する。
IntentRLは、長期研究を始める前に、潜在ユーザ意図を明らかにするためにプロアクティブエージェントを訓練するフレームワークである。
論文 参考訳(メタデータ) (2026-02-03T12:43:09Z) - Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction [55.24448139349266]
PAL-Benchは、長期ユーザエージェントインタラクションにおけるサービス指向アシスタントのパーソナライズ機能を評価するために設計された新しいベンチマークである。
サービス指向のインタラクションをパーソナライズするために、階層的で異質なメモリフレームワークであるH$2$Memoryを提案する。
論文 参考訳(メタデータ) (2025-11-17T14:22:32Z) - RGMem: Renormalization Group-based Memory Evolution for Language Agent User Profile [8.224917568034572]
物理における古典的再正規化群(RG)のイデオロギーに着想を得た自己進化型メモリフレームワークを提案する。
このフレームワークは対話履歴を複数のスケールで整理することができる。
私たちの研究の中核的な革新は、情報圧縮と出現のマルチスケールプロセスとしてのメモリ進化をモデル化することにあります。
論文 参考訳(メタデータ) (2025-10-18T08:16:46Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。