論文の概要: MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference
- arxiv url: http://arxiv.org/abs/2602.15206v1
- Date: Mon, 16 Feb 2026 21:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.914602
- Title: MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference
- Title(参考訳): MAVRL:償却変分推論を用いた複数フィードバック型からの逆戻り関数の学習
- Authors: Raphaël Baur, Yannick Metz, Maria Gkoulta, Mennatallah El-Assady, Giorgia Ramponi, Thomas Kleine Buening,
- Abstract要約: リワード学習は通常、1つのフィードバックタイプに依存するか、手動で重み付けされた損失用語を使って複数のフィードバックタイプを組み合わせる。
本稿では,共有報酬エンコーダとフィードバック固有確率復号器を学習するスケーラブルな補正変分推論手法を提案する。
共同推論された報酬は単一タイプのベースラインよりも優れ、フィードバックタイプ間の相補的な情報を活用し、環境の摂動に対してより堅牢なポリシーを得られることを示す。
- 参考スコア(独自算出の注目度): 22.19400649559091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward learning typically relies on a single feedback type or combines multiple feedback types using manually weighted loss terms. Currently, it remains unclear how to jointly learn reward functions from heterogeneous feedback types such as demonstrations, comparisons, ratings, and stops that provide qualitatively different signals. We address this challenge by formulating reward learning from multiple feedback types as Bayesian inference over a shared latent reward function, where each feedback type contributes information through an explicit likelihood. We introduce a scalable amortized variational inference approach that learns a shared reward encoder and feedback-specific likelihood decoders and is trained by optimizing a single evidence lower bound. Our approach avoids reducing feedback to a common intermediate representation and eliminates the need for manual loss balancing. Across discrete and continuous-control benchmarks, we show that jointly inferred reward posteriors outperform single-type baselines, exploit complementary information across feedback types, and yield policies that are more robust to environment perturbations. The inferred reward uncertainty further provides interpretable signals for analyzing model confidence and consistency across feedback types.
- Abstract(参考訳): リワード学習は通常、1つのフィードバックタイプに依存するか、手動で重み付けされた損失用語を使って複数のフィードバックタイプを組み合わせる。
現在、実証、比較、評価、定性的に異なる信号を提供する停止といった異種フィードバックタイプから報酬関数を共同で学習する方法は、まだ不明である。
この課題は,複数のフィードバック型からの報酬学習をベイズ的推論として,各フィードバック型が明確な可能性を通じて情報に寄与する,共有潜在報酬関数に対して定式化することで解決する。
本稿では,共有報酬エンコーダとフィードバック固有確率復号器を学習し,単一のエビデンスを低いバウンダリで最適化して訓練する,スケーラブルな償却変分推論手法を提案する。
我々のアプローチは、共通の中間表現へのフィードバックを減らすことを避け、手動の損失分散を不要にする。
離散的および連続的制御ベンチマークでは、連立推論された報酬は単一タイプのベースラインよりも優れ、フィードバックタイプ間の相補的な情報を活用し、環境の摂動に対してより堅牢なポリシーを得られることを示す。
推定報酬の不確実性はさらに、モデル信頼性とフィードバックタイプ間の一貫性を分析するための解釈可能な信号を提供する。
関連論文リスト
- Reinforcement Learning from Multi-level and Episodic Human Feedback [1.9686770963118378]
報酬関数と最適ポリシーの両方を多段階のフィードバックから効率的に学習するアルゴリズムを提案する。
提案アルゴリズムは, 広範囲なシミュレーションにより, サブ線形後悔を実現し, その経験的有効性を示す。
論文 参考訳(メタデータ) (2025-04-20T20:09:19Z) - Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。
本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-09T04:20:15Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。