論文の概要: From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation
- arxiv url: http://arxiv.org/abs/2510.07624v1
- Date: Wed, 08 Oct 2025 23:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.777877
- Title: From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation
- Title(参考訳): データからリワードへ:最大近似推定における二段階最適化の視点
- Authors: Abdelhakim Benechehab, Gabriel Singer, Corentin Léger, Youssef Attia El Hili, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Balázs Kégl,
- Abstract要約: 生成モデルは現代の機械学習のバックボーンを形成し、テキスト、ビジョン、マルチモーダルアプリケーションにおける最先端システムを支える。
これらのアプローチは明示的な報酬信号に依存しており、実際には利用できないことが多く、高品質なデータセットのみがアクセス可能である場合に生成モデルをどのように整合させるかという問題を解き放つ。
そこでは、報酬関数を外部問題の最適化変数として扱い、政策勾配の目的が内部レベルを定義する。
- 参考スコア(独自算出の注目度): 11.440362964307958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models form the backbone of modern machine learning, underpinning state-of-the-art systems in text, vision, and multimodal applications. While Maximum Likelihood Estimation has traditionally served as the dominant training paradigm, recent work have highlighted its limitations, particularly in generalization and susceptibility to catastrophic forgetting compared to Reinforcement Learning techniques, such as Policy Gradient methods. However, these approaches depend on explicit reward signals, which are often unavailable in practice, leaving open the fundamental problem of how to align generative models when only high-quality datasets are accessible. In this work, we address this challenge via a Bilevel Optimization framework, where the reward function is treated as the optimization variable of an outer-level problem, while a policy gradient objective defines the inner-level. We then conduct a theoretical analysis of this optimization problem in a tractable setting and extract insights that, as we demonstrate, generalize to applications such as tabular classification and model-based reinforcement learning. We release the code at https://github.com/abenechehab/nll_to_po .
- Abstract(参考訳): 生成モデルは現代の機械学習のバックボーンを形成し、テキスト、ビジョン、マルチモーダルアプリケーションにおける最先端システムを支える。
最大様態推定は伝統的に支配的な訓練パラダイムとして機能してきたが、最近の研究は、特に政策グラディエント手法のような強化学習技術と比較して、大惨な忘れ方への一般化と感受性において、その限界を強調している。
しかし、これらのアプローチは明示的な報酬信号に依存しており、実際には利用できないことが多く、高品質なデータセットのみがアクセス可能である場合に生成モデルをどのように調整するかという根本的な問題を解き放つ。
本研究では,2段階最適化フレームワークを用いて,報酬関数を外部問題の最適化変数として扱うとともに,政策勾配目標が内部レベルを定義することでこの問題に対処する。
次に、この最適化問題に関する理論的解析を行い、図表分類やモデルに基づく強化学習などの応用に一般化した知見を抽出する。
ソースコードはhttps://github.com/abenechehab/nll_to_po で公開しています。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Hierarchical Feature-level Reverse Propagation for Post-Training Neural Networks [24.442592456755698]
エンド・ツー・エンドの自動運転は支配的なパラダイムとして現れてきたが、その高度に絡み合ったブラックボックスモデルは、解釈可能性と安全性の保証の観点から課題を提起している。
本稿では,事前学習ニューラルネットワークに適した階層的かつ非結合なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T15:19:03Z) - Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。
大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。
また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-04T23:31:35Z) - Neural Fields with Hard Constraints of Arbitrary Differential Order [61.49418682745144]
我々は、ニューラルネットワークに厳しい制約を課すための一連のアプローチを開発する。
制約は、ニューラルネットワークとそのデリバティブに適用される線形作用素として指定することができる。
私たちのアプローチは、広範囲の現実世界のアプリケーションで実証されています。
論文 参考訳(メタデータ) (2023-06-15T08:33:52Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。
我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文 参考訳(メタデータ) (2021-06-14T15:40:51Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。