論文の概要: Optimization and Regularization Under Arbitrary Objectives
- arxiv url: http://arxiv.org/abs/2511.19628v1
- Date: Mon, 24 Nov 2025 19:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.120374
- Title: Optimization and Regularization Under Arbitrary Objectives
- Title(参考訳): 任意目的条件下での最適化と正規化
- Authors: Jared N. Lakhani, Etienne Pienaar,
- Abstract要約: 本研究では,マルコフ連鎖モンテカルロ法(MCMC)を任意目的関数に適用する際の限界について検討する。
それらの性能は、採用される可能性の鋭さに依存していることを示す。
この研究は、任意の目的関数に極端に鋭さが与える影響を、別々に分析して結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the limitations of applying Markov Chain Monte Carlo (MCMC) methods to arbitrary objective functions, focusing on a two-block MCMC framework which alternates between Metropolis-Hastings and Gibbs sampling. While such approaches are often considered advantageous for enabling data-driven regularization, we show that their performance critically depends on the sharpness of the employed likelihood form. By introducing a sharpness parameter and exploring alternative likelihood formulations proportional to the target objective function, we demonstrate how likelihood curvature governs both in-sample performance and the degree of regularization inferred by the training data. Empirical applications are conducted on reinforcement learning tasks: including a navigation problem and the game of tic-tac-toe. The study concludes with a separate analysis examining the implications of extreme likelihood sharpness on arbitrary objective functions stemming from the classic game of blackjack, where the first block of the two-block MCMC framework is replaced with an iterative optimization step. The resulting hybrid approach achieves performance nearly identical to the original MCMC framework, indicating that excessive likelihood sharpness effectively collapses posterior mass onto a single dominant mode.
- Abstract(参考訳): 本研究では,マルコフ・チェイン・モンテカルロ法(MCMC)を任意の目的関数に適用することの限界について検討し,メトロポリス・ハスティングスとギブスのサンプリングを交互に行う2ブロックMCMCフレームワークに着目した。
このような手法は、データ駆動型正規化の実現には有利であると考えられがちだが、それらの性能は、採用される可能性の鋭さに大きく依存していることが示される。
対象の目的関数に比例したシャープネスパラメータを導入し、代替可能性の定式化を探索することにより、トレーニングデータから推定される標本内性能と正規化度の両方を曲率がどのように支配するかを示す。
ナビゲーション問題や tic-tac-toe のゲームなど,強化学習タスクに実証的な応用を行う。
この研究は、2ブロックMCMCフレームワークの第1ブロックを反復最適化ステップに置き換えたブラックジャックの古典的なゲームから生じる任意の目的関数に極端に鋭さが与える影響を別々に分析して結論付けた。
結果として得られたハイブリッドアプローチは、元のMCMCフレームワークとほぼ同じ性能を達成し、過度に急激なシャープネスが後方質量を1つの支配的なモードに事実上崩壊させることを示す。
関連論文リスト
- WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Adaptive sparseness for correntropy-based robust regression via
automatic relevance determination [17.933460891374498]
我々は,最大コレントロピー基準(MCC)に基づくロバスト回帰アルゴリズムと自動妥当性判定(ARD)手法をベイズフレームワークに統合する。
我々は、MCCから固有のノイズ仮定を用いて、明示的な可能性関数を導出し、ARD前の最大後部推定(MAP)を実現する。
MCC-ARDはL1正規化MCCよりも優れた予測性能と特徴選択能力を実現している。
論文 参考訳(メタデータ) (2023-01-31T20:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。