論文の概要: Uncertainty-Aware Variational Reward Factorization via Probabilistic Preference Bases for LLM Personalization
- arxiv url: http://arxiv.org/abs/2604.00997v1
- Date: Wed, 01 Apr 2026 14:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.046887
- Title: Uncertainty-Aware Variational Reward Factorization via Probabilistic Preference Bases for LLM Personalization
- Title(参考訳): LLMパーソナライズのための確率的選好ベースによる不確かさを意識した逆因数分解
- Authors: Gyuseok Lee, Wonbin Kweon, Zhenrui Yue, SeongKu Kang, Jiawei Han, Dong Wang,
- Abstract要約: 本稿では,各ユーザの嗜好を共有嗜好空間における変分分布として表現する不確実性を考慮したフレームワークである,変分因数分解(VRF)を紹介する。
VRFは、変動エンコーダを介してユーザ分布を推測し、ワッサーシュタイン距離と共有確率ベースとの一致による重みを導出し、分散減衰損失による不確実な推定を導出する。
- 参考スコア(独自算出の注目度): 32.29307367283854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward factorization personalizes large language models (LLMs) by decomposing rewards into shared basis functions and user-specific weights. Yet, existing methods estimate user weights from scarce data in isolation and as deterministic points, leading to inaccurate and unreliable inference. We introduce Variational Reward Factorization (VRF), an uncertainty-aware framework that represents each user's preferences as a variational distribution in a shared preference space. VRF infers user distributions via a variational encoder, derives weights through Wasserstein distance matching with shared probabilistic bases, and downweights uncertain estimates through a variance-attenuated loss. On three benchmarks, VRF outperforms all baselines across seen and unseen users, few-shot scenarios, and varying uncertainty levels, with gains extending to downstream alignment.
- Abstract(参考訳): Reward Factorizationは、報酬を共有基底関数とユーザ固有の重みに分解することで、大きな言語モデル(LLM)をパーソナライズする。
しかし、既存の手法では、データ不足や決定論的な点からユーザ重みを推定し、不正確で信頼性の低い推論に繋がる。
本稿では,各ユーザの嗜好を共有嗜好空間における変分分布として表現する不確実性を考慮したフレームワークである,変分因数分解(VRF)を紹介する。
VRFは、変動エンコーダを介してユーザ分布を推測し、ワッサーシュタイン距離と共有確率ベースとの一致による重みを導出し、分散減衰損失による不確実な推定を導出する。
3つのベンチマークで、VRFは、見知らぬユーザ、いくつかのシナリオ、さまざまな不確実性レベルにおいて、すべてのベースラインを上回り、アップストリームアライメントにまで拡張します。
関連論文リスト
- Uncertainty Estimation using Variance-Gated Distributions [0.6340400318304492]
クラス確率分布の信号対雑音比に基づく不確実性推定と分解のための直感的なフレームワークを提案する。
本稿では,アンサンブルから導かれる信頼因子による予測をスケールする分散化指標を提案する。
論文 参考訳(メタデータ) (2025-09-07T16:19:21Z) - FIVA: Federated Inverse Variance Averaging for Universal CT Segmentation with Uncertainty Estimation [4.544160712377809]
本研究は,多様な腹部CTデータセットにまたがる普遍的なセグメンテーションを実現するための,新しいフェデレーション学習手法を提案する。
提案手法はモデル重みから不確かさを伝搬することにより予測の不確かさを定量化する。
実験により, フェデレーションアグリゲーションと不確実性重み付け推論の品質向上に本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-08-08T11:34:01Z) - Uncertainty-driven Embedding Convolution [16.523816971857787]
不確実性駆動型埋め込み畳み込み(UEC)を提案する。
UECは決定論的埋め込みをポストホックな方法で確率論的に変換する。
その後、埋め込みの不確実性に基づいて適応アンサンブル重みを計算する。
論文 参考訳(メタデータ) (2025-07-28T11:15:25Z) - TRUST: Test-time Resource Utilization for Superior Trustworthiness [15.031121920821109]
このようなノイズの影響を考慮し,より信頼性の高い信頼度推定を行う新しいテスト時間最適化法を提案する。
このスコアは単調なサブセット選択関数を定義し、低いスコアを持つサンプルを除去すると、集団の精度は一貫して上昇する。
論文 参考訳(メタデータ) (2025-06-06T12:52:32Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - Triplet Losses-based Matrix Factorization for Robust Recommendations [0.76146285961466]
複数の三重項損失項を用いてユーザとアイテムの意味表現を抽出する。
いくつかの「バイアス認識」評価指標を用いて,これらの表現の音質を実証的に評価した。
論文 参考訳(メタデータ) (2022-10-21T16:44:59Z) - Uncertainty-guided Source-free Domain Adaptation [77.3844160723014]
ソースフリードメイン適応(SFDA)は、事前訓練されたソースモデルのみを使用することで、未ラベルのターゲットデータセットに分類器を適応させることを目的としている。
本稿では、ソースモデル予測の不確実性を定量化し、ターゲット適応の導出に利用することを提案する。
論文 参考訳(メタデータ) (2022-08-16T08:03:30Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。