論文の概要: Uncertainty-aware Generative Recommendation
- arxiv url: http://arxiv.org/abs/2602.11719v1
- Date: Thu, 12 Feb 2026 08:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.729259
- Title: Uncertainty-aware Generative Recommendation
- Title(参考訳): 不確実性を考慮した生成レコメンデーション
- Authors: Chenxiao Fan, Chongming Gao, Yaxin Gong, Haoyan Liu, Fuli Feng, Xiangnan He,
- Abstract要約: Uncertainty-aware Generative Recommendation (UGR)は、適応最適化のための重要な信号として不確実性を利用する統一的なフレームワークである。
UGRは優れたレコメンデーション性能を得るだけでなく、トレーニングを根本的に安定化させ、標準手法でよく見られる性能劣化を防ぐ。
- 参考スコア(独自算出の注目度): 52.0751022792023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Recommendation has emerged as a transformative paradigm, reformulating recommendation as an end-to-end autoregressive sequence generation task. Despite its promise, existing preference optimization methods typically rely on binary outcome correctness, suffering from a systemic limitation we term uncertainty blindness. This issue manifests in the neglect of the model's intrinsic generation confidence, the variation in sample learning difficulty, and the lack of explicit confidence expression, directly leading to unstable training dynamics and unquantifiable decision risks. In this paper, we propose Uncertainty-aware Generative Recommendation (UGR), a unified framework that leverages uncertainty as a critical signal for adaptive optimization. UGR synergizes three mechanisms: (1) an uncertainty-weighted reward to penalize confident errors; (2) difficulty-aware optimization dynamics to prevent premature convergence; and (3) explicit confidence alignment to empower the model with confidence expression capabilities. Extensive experiments demonstrate that UGR not only yields superior recommendation performance but also fundamentally stabilizes training, preventing the performance degradation often observed in standard methods. Furthermore, the learned confidence enables reliable downstream risk-aware applications.
- Abstract(参考訳): 生成レコメンデーション(Generative Recommendation)はトランスフォーメーションパラダイムとして登場し、エンドツーエンドの自己回帰シーケンス生成タスクとしてレコメンデーションを改革している。
その約束にもかかわらず、既存の選好最適化手法は一般に二項結果の正当性に依存し、体系的な制限に悩まされ、不確かさを表現している。
この問題は、モデル固有の生成の信頼性、サンプル学習の難しさのばらつき、明示的な信頼表現の欠如を無視し、不安定なトレーニングのダイナミクスと不確実な決定リスクに直結している。
本稿では,不確かさを適応最適化の重要な信号として活用する統一フレームワークであるUncertainty-aware Generative Recommendation (UGR)を提案する。
UGRは,(1)自信のある誤りをペナルティ化する不確実性重み付き報酬,(2)早期収束を防ぐ難易度最適化のダイナミクス,(3)信頼表現能力を持つモデルを強化するための明確な信頼アライメントの3つのメカニズムを相乗化している。
広汎な実験により、UGRは優れたレコメンデーション性能を得るだけでなく、トレーニングを根本的に安定させ、標準手法でよく見られる性能劣化を防ぐことが示されている。
さらに、学習された信頼性は、信頼できる下流のリスク認識アプリケーションを可能にする。
関連論文リスト
- Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning [0.0]
強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは精度を60.72%から84.03%に改善した。
論文 参考訳(メタデータ) (2026-02-09T11:08:24Z) - UCPO: Uncertainty-Aware Policy Optimization [12.847800921274617]
既存のLarge Language Models (LLM) はバイナリ決定空間と静的不確実性報酬によってアドバンテージバイアスに悩まされ、過剰な保守主義や過剰な自信を引き起こす。
本稿では、不確実性に基づく報酬を取り入れた現在のRLパラダイムにおける報酬ハッキングと過信の根本原因を明らかにし、UnCertainty-Aware Policy Optimizationフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T07:07:42Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Open-World Deepfake Attribution via Confidence-Aware Asymmetric Learning [78.92934995292113]
本稿では,既知の偽造と新規な偽造の信頼のバランスをとる,信頼を意識した非対称学習(CAL)フレームワークを提案する。
CALは従来手法を一貫して上回り、既知の偽造と新しい偽造の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-14T12:31:28Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization [3.124884279860061]
本稿では,2段階適応型ロバスト最適化のための逆生成を行う解アルゴリズムAGROを紹介する。
AGROは、同時に敵対的かつ現実的な高次元の一致を生成する。
我々は、AGROが標準的なカラム・アンド・制約アルゴリズムを最大1.8%のプロダクション・ディストリビューション計画、最大11.6%の電力系統拡張で上回っていることを示す。
論文 参考訳(メタデータ) (2024-09-05T17:42:19Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。