論文の概要: Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation
- arxiv url: http://arxiv.org/abs/2603.22335v1
- Date: Sat, 21 Mar 2026 03:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.072654
- Title: Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation
- Title(参考訳): 分散ロバストな生成レコメンデーションのための因果直接選好最適化
- Authors: Chu Zhao, Enneng Yang, Jianzhe Zhao, Guibing Guo,
- Abstract要約: 直接選好最適化(DPO)は,ユーザの履歴行動分布に沿ったレコメンデーションを生成するために,大規模言語モデルをガイドする。
DPOは、アライメントプロセス中に環境共同創設者によって引き起こされる急激な相関を増幅する傾向がある。
因果不変学習機構を組み込んだDPOの拡張であるCausalDPOを提案する。
- 参考スコア(独自算出の注目度): 23.103003039699004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) guides large language models (LLMs) to generate recommendations aligned with user historical behavior distributions by minimizing preference alignment loss. However, our systematic empirical research and theoretical analysis reveal that DPO tends to amplify spurious correlations caused by environmental confounders during the alignment process, significantly undermining the generalization capability of LLM-based generative recommendation methods in out of distribution (OOD) scenarios. To mitigate this issue, we propose CausalDPO, an extension of DPO that incorporates a causal invariance learning mechanism. This method introduces a backdoor adjustment strategy during the preference alignment phase to eliminate interference from environmental confounders, explicitly models the latent environmental distribution using a soft clustering approach, and enhances robust consistency across diverse environments through invariance constraints. Theoretical analysis demonstrates that CausalDPO can effectively capture users stable preference structures across multiple environments, thereby improving the OOD generalization performance of LLM-based recommendation models. We conduct extensive experiments under four representative distribution shift settings to validate the effectiveness of CausalDPO, achieving an average performance improvement of 17.17% across four evaluation metrics.
- Abstract(参考訳): 直接選好最適化(DPO)は、大きな言語モデル(LLM)をガイドし、好みのアライメント損失を最小限に抑えて、ユーザの履歴行動分布に合わせたレコメンデーションを生成する。
しかし,我々の系統的な実証研究と理論的分析により,DPOはアライメントプロセス中に環境共同設立者によって引き起こされる急激な相関を増幅する傾向を示し,分布外(OOD)シナリオにおけるLLMに基づく生成レコメンデーション手法の一般化能力を著しく損なうことが明らかとなった。
この問題を軽減するために,因果不変学習機構を組み込んだDPOの拡張であるCausalDPOを提案する。
本手法では, 環境共同創設者からの干渉を排除し, ソフトクラスタリング手法を用いて潜伏環境分布を明示的にモデル化し, 分散制約を通した多様な環境間の堅牢な整合性を高めるため, 選好調整段階におけるバックドア調整戦略を導入する。
理論的解析により、CausalDPOは複数の環境にまたがる安定した嗜好構造を効果的にキャプチャし、LCMベースのレコメンデーションモデルのOOD一般化性能を向上させることが示されている。
本研究では,CausalDPOの有効性を検証するために,4つの代表的な分布シフト設定の下で広範囲な実験を行い,4つの評価指標に対して平均17.17%の性能向上を実現した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Stable Preference Optimization for LLMs: A Bilevel Approach Beyond Direct Preference Optimization [2.384797824772941]
確率進化の観点からDPOのダイナミクスを包括的に分析する。
本稿では,教師付き微調整とDPO目標,すなわち安定な選好最適化とを密に統合する理論的基礎を持つ二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T12:57:39Z) - Understanding the Impact of Sampling Quality in Direct Preference Optimization [4.122673728216191]
我々は、DPO(Direct Preference Optimization)において、より高い品質のデータをどのように活用してパフォーマンスを向上させるかを検討する。
解析の結果、DPOの解空間と収束挙動は、データ生成分布の支持と品質に依存することがわかった。
論文 参考訳(メタデータ) (2025-06-03T18:12:40Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Robust LLM Alignment via Distributionally Robust Direct Preference Optimization [17.365569075274543]
大規模言語モデル(LLM)と人間の好みを一致させる上での大きな課題は、分散シフトの問題である。
We developed two novel distributionally robust direct preference optimization (DPO) algorithm、すなわち Wasserstein DPO (WDPO) and Kullback-Leibler DPO (KLDPO)。
WDPO と KLDPO が優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。