論文の概要: Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE
- arxiv url: http://arxiv.org/abs/2603.29259v1
- Date: Tue, 31 Mar 2026 04:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.154222
- Title: Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE
- Title(参考訳): スパースMoEを用いたロバスト直接選好最適化によるマルチモーダルシーケンスレコメンデーションの調整
- Authors: Hejin Huang, Jusheng Zhang, Kaitong Cai, Jian Wang, Rong Pan,
- Abstract要約: 我々は、一般的なネガティブ選択戦略とDPOトレーニングとの相互作用を比較するために、マルチモーダルシーケンシャルレコメンデーションの実験を行う。
我々の中心的な発見は、決定論的ハードネガティブを動的トップK候補プールからのサンプリングに置き換えた単純な修正により、常にランク付け性能が向上することである。
- 参考スコア(独自算出の注目度): 7.609008983716641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based alignment objectives have been widely adopted, from RLHF-style pairwise learning in large language models to emerging applications in recommender systems. Yet, existing work rarely examines how Direct Preference Optimization (DPO) behaves under implicit feedback, where unobserved items are not reliable negatives. We conduct systematic experiments on multimodal sequential recommendation to compare common negative-selection strategies and their interaction with DPO training. Our central finding is that a simple modification, replacing deterministic hard negatives with stochastic sampling from a dynamic top-K candidate pool, consistently improves ranking performance. We attribute its effectiveness to two factors: (1) reducing erroneous suppressive gradients caused by false negatives, and (2) retaining informative hard signals while smoothing optimization via controlled stochasticity. With an optional sparse Mixture-of-Experts encoder for efficient capacity scaling, RoDPO achieves up to 5.25% NDCG@5 on three Amazon benchmarks, with nearly unchanged inference cost.
- Abstract(参考訳): 優先順位に基づくアライメントの目的は、大規模言語モデルにおけるRLHFスタイルのペアワイズ学習から、リコメンダシステムにおける新興アプリケーションに至るまで、広く採用されている。
しかし、既存の研究は、観測されていない項目が信頼できない暗黙のフィードバックの下で、直接優先度最適化(DPO)がどのように振る舞うかをめったに調査しない。
マルチモーダル・シーケンシャル・レコメンデーションの体系的な実験を行い、一般的なネガティブ選択戦略とDPOトレーニングとの相互作用を比較した。
我々の中心的な発見は、決定論的ハードネガティブを動的トップK候補プールから確率的サンプリングに置き換えた単純な修正により、常にランク付け性能が向上することである。
提案手法の有効性は,(1)偽陰性による誤った抑制勾配の低減,(2)制御確率性による最適化を円滑化しつつ,情報的硬質信号の保持,の2つの要因に起因している。
効率的なキャパシティスケーリングのために、オプションでスパース・ミックス・オブ・エクササイズエンコーダを使用すれば、3つのAmazonベンチマークで最大5.25%のNDCG@5を達成でき、推論コストはほぼ変わらない。
関連論文リスト
- wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment [48.487557157323664]
実際には、好みのデータはしばしばうるさい。
既存のDPOの頑健な派生型は、主に一様の客観的な修正や大域的な再重み付けに依存している。
目的の介入によって異なるノイズタイプに対処することで、ロバストな選好アライメントの利点が示される。
論文 参考訳(メタデータ) (2026-03-07T13:30:53Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - On Negative-aware Preference Optimization for Recommendation [10.082739500992545]
LLMに基づくリコメンデーションにおいて、優先最適化のための拡張されたフレームワークであるNAPOを提案する。
NAPO は,(1) 負のサンプルのプールをメモリオーバーヘッドを伴わずに拡張する in-batch 負の共有,(2) 負のサンプルの信頼度に基づいてモデル更新を適応する dynamic reward margin adjust という2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-08-13T09:37:07Z) - Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。
選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。
RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文 参考訳(メタデータ) (2025-05-28T09:44:27Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss [26.860139372768092]
本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。
提案するBNF損失は, 対意に対照的な損失が不要となる。
我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2024-10-07T08:44:04Z) - Permutative Preference Alignment from Listwise Ranking of Human Judgments [40.23480751285947]
我々はNDCGを異なる代理損失で近似することで、エンドツーエンドのアライメントアルゴリズムを開発する。
我々は,NDCGに基づく手法により,B-T法よりも効率よくランキング精度を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。