論文の概要: Navigating the Synchrony-Stability Frontier in Adaptive Chatbots
- arxiv url: http://arxiv.org/abs/2510.00339v1
- Date: Tue, 30 Sep 2025 22:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.28858
- Title: Navigating the Synchrony-Stability Frontier in Adaptive Chatbots
- Title(参考訳): 適応型チャットボットにおける同期安定フロンティアのナビゲーション
- Authors: T. James Brandt,
- Abstract要約: コア設計の緊張を明示する計算評価フレームワークを提案する。
人間のログデータセットに対する明示的な適応ポリシーをシミュレートし比較する。
限定されたポリシーは、同期に控えめなコストで、安定性の大幅な向上を実現している。
我々は、フロンティアポリシーが命令のチャーンを減らし、ジャリングレジスタのフリップを減らしたことを示す「素早い正当性」を定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive chatbots that mimic a user's linguistic style can build rapport and engagement, yet unconstrained mimicry risks an agent that feels unstable or sycophantic. We present a computational evaluation framework that makes the core design tension explicit: balancing moment-to-moment linguistic synchrony against long-term persona stability. Using an 8-dimensional style vector and a closed-loop "base+delta" prompting architecture, we simulate and compare explicit adaptation policies - Uncapped, Cap, Exponential Moving Average (EMA), Dead-Band, and Hybrids - on a human-log dataset. Our analysis maps a clear Pareto frontier: bounded policies achieve substantial gains in stability at a modest cost to synchrony. For example, a Hybrid (EMA+Cap) raises stability from 0.542 to 0.878 (+62%) while reducing synchrony by only 17%. We confirm this trade-off through large-scale replications on three public corpora (DailyDialog, Persona-Chat, EmpatheticDialogues) and LLM-in-the-loop validation across two model families. Furthermore, we quantify "prompt legibility," showing that frontier policies reduce instruction churn and cut jarring register flips (major tone changes) from 0.254 to 0.092, yielding systems that are easier to reason about and maintain. Taken together, our framework provides a general evaluation harness for style adaptation; a systematic ablation that identifies Pareto-efficient policies; robust validation across diverse datasets and models; and novel legibility metrics linking policy choices to system maintainability.
- Abstract(参考訳): ユーザの言語スタイルを模倣する適応型チャットボットは、ラプポートとエンゲージメントを構築することができるが、制約のない模倣は、不安定またはサイコファンティックなエージェントを危険に晒す。
本稿では, 長期的ペルソナ安定性に対するモーメント・ツー・モーメント言語同期のバランスをとることで, コア設計の緊張を明確化する計算評価フレームワークを提案する。
8次元のスタイルベクターとクローズドループの"base+delta"プロンプトアーキテクチャを用いて、人間のログデータセット上で、アンキャップ、キャップ、指数移動平均(EMA)、デッドバンド、ハイブリッドといった明示的な適応ポリシーをシミュレートし、比較する。
我々の分析は、明確なパレートフロンティアをマッピングする: 境界付けられたポリシーは、同期に控えめなコストで、安定性を大幅に向上させる。
例えば、ハイブリッド(EMA+Cap)は0.542から0.878(+62%)に安定性を高め、同期をわずか17%削減する。
3つのパブリックコーパス(DailyDialog, Persona-Chat, EmpatheticDialogues)とLLM-in-the-loopバリデーション(LLM-the-loop Validation)の大規模な複製によって,このトレードオフを確認した。
さらに、フロンティアポリシーが命令のチャーンを減らし、ジャーリングレジスタのフリップを0.254から0.092に減らし、推論や維持が容易なシステムが得られることを示す。
このフレームワークは、パターン適応のための一般的な評価手法、パレート効率の高いポリシーを識別する体系的アブレーション、多様なデータセットやモデルにまたがる堅牢な検証、およびポリシー選択とシステム保守性とをリンクする新しい可視性指標を提供する。
関連論文リスト
- Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Prompt Stability in Code LLMs: Measuring Sensitivity across Emotion- and Personality-Driven Variations [40.12950482269347]
本稿では,感情テンプレートと人格テンプレートを用いた意味論的に等価なプロンプト変種を生成するフレームワークであるPromptSEを提案する。
本研究は、性能と安定性が、主に分離された最適化目標として振る舞うことを示す。
PromptSEは、デプロイとモデル選択のためのパフォーマンス安定性トレードオフの定量化を可能にする。
論文 参考訳(メタデータ) (2025-09-17T04:17:42Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - FedStrategist: A Meta-Learning Framework for Adaptive and Robust Aggregation in Federated Learning [0.10241134756773229]
フェデレートラーニング(FL)は、プライバシ保護のための協調AIのパラダイムを提供するが、その分散された性質は、毒殺攻撃をモデル化するための重大な脆弱性を生み出している。
本稿では、ロバストアグリゲーションをリアルタイムでコストを意識した制御問題として再編成する新しいメタラーニングフレームワークであるFedStrategistを紹介する。
論文 参考訳(メタデータ) (2025-07-18T18:53:26Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Sampling, Communication, and Prediction Co-Design for Synchronizing the
Real-World Device and Digital Model in Metaverse [14.326344469446434]
我々は,制約付き深層強化学習(DRL)アルゴリズムを開発した。
実世界のロボットアームとそのデジタルモデルからなるプロトタイプ上で,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2022-07-31T20:17:31Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。