論文の概要: DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue
- arxiv url: http://arxiv.org/abs/2512.03704v1
- Date: Wed, 03 Dec 2025 11:56:53 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:58:56.782421
- Title: DZ-TDPO: Non-Destructive Temporal Alignment for Mutable State Tracking in Long-Context Dialogue
- Title(参考訳): DZ-TDPO:長期対話における可変状態追跡のための非破壊的時間アライメント
- Authors: Yijun Liao,
- Abstract要約: DZ-TDPOは、競合を意識した動的KL制約と学習可能な時間的注意バイアスを相乗化する非破壊的アライメントフレームワークである。
Multi-Session Chatデータセットの実験は、DZ-TDPOが最先端の勝利率を達成することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Long-context dialogue systems suffer from State Inertia, where static constraints prevent models from resolving conflicts between evolving user intents and established historical context. To address this, we propose DZ-TDPO, a non-destructive alignment framework that synergizes conflict-aware dynamic KL constraints with a learnable temporal attention bias. Experiments on the Multi-Session Chat (MSC) dataset demonstrate that DZ-TDPO achieves state-of-the-art win rates (86.2% on Phi-3.5) while maintaining robust zero-shot generalization. Crucially, our scaling analysis reveals a "Capacity-Stability Trade-off": while smaller models incur an "alignment tax" (perplexity surge) to overcome historical inertia, the larger Qwen2.5-7B model achieves near-perfect alignment (99.4% win rate) with negligible perplexity overhead. This confirms that TAI can be alleviated via precise attention regulation rather than destructive weight updates, preserving general capabilities (MMLU) across model scales. Code and data are available: https://github.com/lyj20071013/DZ-TDPO
- Abstract(参考訳): 長いコンテキストの対話システムは状態慣性に悩まされ、静的な制約は、進化するユーザの意図と確立された歴史的文脈の間の衝突をモデルが解決するのを防ぐ。
そこで本稿では,コンフリクトを意識した動的KL制約と学習可能な時間的注意バイアスを相乗化する非破壊的アライメントフレームワークであるDZ-TDPOを提案する。
マルチセッションチャット(MSC)データセットの実験は、DZ-TDPOが安定なゼロショット一般化を維持しつつ、最先端の勝利率(Phi-3.5では86.2%)を達成することを示した。
より小さなモデルは、歴史的慣性(英語版)を克服するために「調整税」(複雑化)を発生させる一方で、より大規模なQwen2.5-7Bモデルは、無視できるパープレキシティオーバーヘッドを伴うほぼ完全なアライメント(99.4%の勝利率)を達成する。
このことは、TAIが破壊的な重量更新よりも正確な注意制御によって緩和され、モデルスケール全体にわたって一般機能(MMLU)を維持することを確認している。
コードとデータは、https://github.com/lyj20071013/DZ-TDPO
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - On the Joint Minimization of Regularization Loss Functions in Deep Variational Bayesian Methods for Attribute-Controlled Symbolic Music Generation [47.38557855930304]
明示的な潜在変数モデルは、データ合成のための柔軟だが強力なフレームワークを提供する。
既存のアプローチは、両方の正規化目標を共同で最小化するのに苦労していることを示す。
適切な属性変換は、目標潜在次元の可制御性と正則化の両方を達成するのに有効であることを示す。
論文 参考訳(メタデータ) (2025-11-10T14:09:25Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-09-15T12:25:39Z) - STDiff: A State Transition Diffusion Framework for Time Series Imputation in Industrial Systems [2.3895981099137535]
そこで本研究では,ある状態から次の状態へシステムがどのように進化するかを学ぶために,命令を書き換えるSTDiffを提案する。
STDiffは低いエラーを継続的に達成し、その利点は長いギャップで増大する。
これらの結果は、産業時系列の堅牢なアプローチとして、動的に認識され、明示的な条件付き計算をサポートする。
論文 参考訳(メタデータ) (2025-08-26T13:14:53Z) - MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging [29.58798660724693]
連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを順次統合する。
テスト時間連続モデルマージの新しいフレームワークであるMINGLEを提案する。
MINGLEは堅牢な一般化を実現し、忘れることを大幅に減らし、従来の最先端の手法を平均で7-9%上回っている。
論文 参考訳(メタデータ) (2025-05-17T07:24:22Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Simple and Effective Prevention of Mode Collapse in Deep One-Class
Classification [93.2334223970488]
深部SVDDにおける超球崩壊を防止するための2つの正則化器を提案する。
第1の正則化器は、標準のクロスエントロピー損失によるランダムノイズの注入に基づいている。
第2の正規化器は、小さすぎるとミニバッチ分散をペナライズする。
論文 参考訳(メタデータ) (2020-01-24T03:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。