論文の概要: Learning What Matters Now: Dynamic Preference Inference under Contextual Shifts
- arxiv url: http://arxiv.org/abs/2603.22813v1
- Date: Tue, 24 Mar 2026 05:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.318684
- Title: Learning What Matters Now: Dynamic Preference Inference under Contextual Shifts
- Title(参考訳): 今何が重要かを学ぶ:文脈シフト下での動的推論
- Authors: Xianwei Cao, Dou Quan, Zhenliang Zhang, Shuang Wang,
- Abstract要約: 本研究は,文脈とともにドリフトする未観測潜伏変数が優先重みを持つ場合の逐次決定問題について検討する。
本稿では,エージェントが嗜好重みに対する確率論的信念を維持する枠組みである動的選好推論(DPI)を提案する。
DPIはその推論された嗜好を新しいレシエーションに適応させ、固定ウェイトや封筒ベースラインよりも高いポストシフト性能を達成する。
- 参考スコア(独自算出の注目度): 8.986181114282559
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans often juggle multiple, sometimes conflicting objectives and shift their priorities as circumstances change, rather than following a fixed objective function. In contrast, most computational decision-making and multi-objective RL methods assume static preference weights or a known scalar reward. In this work, we study sequential decision-making problem when these preference weights are unobserved latent variables that drift with context. Specifically, we propose Dynamic Preference Inference (DPI), a cognitively inspired framework in which an agent maintains a probabilistic belief over preference weights, updates this belief from recent interaction, and conditions its policy on inferred preferences. We instantiate DPI as a variational preference inference module trained jointly with a preference-conditioned actor-critic, using vector-valued returns as evidence about latent trade-offs. In queueing, maze, and multi-objective continuous-control environments with event-driven changes in objectives, DPI adapts its inferred preferences to new regimes and achieves higher post-shift performance than fixed-weight and heuristic envelope baselines.
- Abstract(参考訳): 人間は、しばしば複数の、時には矛盾する目的をジャグリングし、固定された目的関数に従うのではなく、状況が変わるにつれて優先順位をシフトする。
対照的に、ほとんどの計算決定および多目的RL法は静的な選好重みや既知のスカラー報酬を仮定する。
本研究では,これらの嗜好重みが文脈とともに漂う非観測潜在変数である場合の逐次決定問題について検討する。
具体的には、エージェントが嗜好重みに対する確率的信念を維持し、この信念を最近の相互作用から更新し、推論された嗜好に対してそのポリシーを条件付ける、認知にインスパイアされたフレームワークであるDynamic Preference Inference (DPI)を提案する。
そこで我々は, DPIを, 条件付きアクター批判と共同で訓練した変分選好推定モジュールとして, ベクトル値リターンを潜時トレードオフの証拠として用いた。
イベント駆動型目標変更を伴う待ち行列、迷路、多目的連続制御環境において、DPIはその推論された嗜好を新しいレジームに適応させ、固定重およびヒューリスティックエンベロープベースラインよりも高いポストシフト性能を達成する。
関連論文リスト
- Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - RecNet: Self-Evolving Preference Propagation for Agentic Recommender Systems [109.9061591263748]
RecNetは、レコメンデータシステムのための自己進化的な好みの伝達フレームワークである。
関連ユーザやアイテム間で、リアルタイムの好み更新を積極的に伝達する。
逆相では、フィードバック駆動の伝搬最適化機構がマルチエージェント強化学習フレームワークをシミュレートする。
論文 参考訳(メタデータ) (2026-01-29T12:14:31Z) - SPRInG: Continual LLM Personalization via Selective Parametric Adaptation and Retrieval-Interpolated Generation [11.253466187411524]
SPRInGは、効果的な継続パーソナライズを目的とした、新しい半パラメトリックフレームワークである。
訓練中、SPRInGはドリフト駆動の選択的適応を採用しており、これは確率に基づくスコアリング機能を用いて高能率相互作用を識別する。
長期のパーソナライズされた生成ベンチマークの実験は、SPRInGが既存のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-15T01:32:27Z) - Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Inferring Preferences from Demonstrations in Multi-objective
Reinforcement Learning: A Dynamic Weight-based Approach [0.0]
多目的意思決定において、選好推論は、異なる目的のために意思決定者の選好を推測する過程である。
本研究では,多目的意思決定問題に作用するエージェントの選好を推測する動的重みに基づく選好推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T11:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。