論文の概要: Revisiting Online Learning Approach to Inverse Linear Optimization: A Fenchel--Young Loss Perspective and Gap-Dependent Regret Analysis
- arxiv url: http://arxiv.org/abs/2501.13648v1
- Date: Thu, 23 Jan 2025 13:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:39.036954
- Title: Revisiting Online Learning Approach to Inverse Linear Optimization: A Fenchel--Young Loss Perspective and Gap-Dependent Regret Analysis
- Title(参考訳): 逆線形最適化へのオンライン学習アプローチの再考:Fenchel-Young Loss Perspective と Gap-Dependent Regret Analysis
- Authors: Shinsaku Sakaue, Han Bao, Taira Tsuchiya,
- Abstract要約: 本稿では,B"armannらによる逆線形最適化に対するオンライン学習アプローチを再考する。
目的は、エージェントの入出力ペアのシーケンシャルな観察から、エージェントの未知の線形目的関数を推論することである。
提案手法は, エージェントの選択について, 予測対象がどの程度うまく説明できるかを測るものである。
- 参考スコア(独自算出の注目度): 22.123582043898647
- License:
- Abstract: This paper revisits the online learning approach to inverse linear optimization studied by B\"armann et al. (2017), where the goal is to infer an unknown linear objective function of an agent from sequential observations of the agent's input-output pairs. First, we provide a simple understanding of the online learning approach through its connection to online convex optimization of \emph{Fenchel--Young losses}. As a byproduct, we present an offline guarantee on the \emph{suboptimality loss}, which measures how well predicted objectives explain the agent's choices, without assuming the optimality of the agent's choices. Second, assuming that there is a gap between optimal and suboptimal objective values in the agent's decision problems, we obtain an upper bound independent of the time horizon $T$ on the sum of suboptimality and \emph{estimate losses}, where the latter measures the quality of solutions recommended by predicted objectives. Interestingly, our gap-dependent analysis achieves a faster rate than the standard $O(\sqrt{T})$ regret bound by exploiting structures specific to inverse linear optimization, even though neither the loss functions nor their domains enjoy desirable properties, such as strong convexity.
- Abstract(参考訳): 本稿では,B\"armann et al (2017) による逆線形最適化のオンライン学習手法を再検討し,エージェントの入出力ペアの逐次観測から未知の線形目的関数を推論することを目的とする。
まず,emph{Fenchel--Young loss}のオンライン凸最適化への接続を通じて,オンライン学習アプローチの簡単な理解を提供する。
副産物として、エージェントの選択の最適性を仮定することなく、エージェントの選択を適切に予測した目的がどの程度うまく説明できるかを測定する「emph{suboptimality loss}」をオフラインで保証する。
第二に、エージェントの判断問題に最適値と最適値の差があると仮定すると、予測された目的によって推奨される解の質を測る、最適値と推定損失の和の和に対して、時間的地平線から独立な上限$T$を得る。
興味深いことに、損失関数やその領域が強い凸性のような望ましい性質を享受していないにもかかわらず、逆線形最適化に特有の構造を利用することによって、我々のギャップ依存解析は標準の$O(\sqrt{T})$後悔境界よりも高速な速度を達成する。
関連論文リスト
- Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Offline Model-Based Optimization via Policy-Guided Gradient Search [30.87992788876113]
オフライン強化学習問題として再構成することで、オフライン最適化のための新しい学習-探索-勾配の視点を導入する。
提案手法は,オフラインデータから生成されたサロゲートモデルに対して,適切なポリシーを明示的に学習する。
論文 参考訳(メタデータ) (2024-05-08T18:27:37Z) - From Function to Distribution Modeling: A PAC-Generative Approach to
Offline Optimization [30.689032197123755]
本稿では、オフラインデータ例の集合を除いて目的関数が不明なオフライン最適化の問題について考察する。
未知の目的関数を学習して最適化するのではなく、より直感的で直接的な視点で、最適化は生成モデルからサンプリングするプロセスと考えることができる。
論文 参考訳(メタデータ) (2024-01-04T01:32:50Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Optimal Rates for Random Order Online Optimization [60.011653053877126]
敵が損失関数を選択できるカテットガルバー2020onlineについて検討するが、一様にランダムな順序で提示される。
2020onlineアルゴリズムが最適境界を達成し,安定性を著しく向上することを示す。
論文 参考訳(メタデータ) (2021-06-29T09:48:46Z) - Contextual Inverse Optimization: Offline and Online Learning [3.6739949215165164]
オフラインとオンラインのコンテキスト最適化の問題について,フィードバック情報を用いて検討する。
我々は後悔を最小限に抑えることを目指しており、これは我々の損失と全知の託宣によって引き起こされた損失との違いとして定義される。
論文 参考訳(メタデータ) (2021-06-26T13:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。