論文の概要: Robust Transfer Learning with Side Information
- arxiv url: http://arxiv.org/abs/2603.07921v1
- Date: Mon, 09 Mar 2026 03:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.405558
- Title: Robust Transfer Learning with Side Information
- Title(参考訳): サイド情報を用いたロバストトランスファー学習
- Authors: Akram S. Awad, Shihab Ahmed, Yue Wang, George K. Atia,
- Abstract要約: 本研究では,推定中心の不確実性セットを介し,ロバストなターゲットドメインポリシーを導出する環境シフト下での移動のためのフレームワークを提案する。
サイド情報には、特徴モーメント、分布距離、密度比のバウンダリが含まれている。
学習されたロバストポリシーに対する有限サンプル保証を提供し、ロバストな準最適ギャップを分析する。
- 参考スコア(独自算出の注目度): 14.10618869312116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust Markov Decision Processes (MDPs) address environmental shift through distributionally robust optimization (DRO) by finding an optimal worst-case policy within an uncertainty set of transition kernels. However, standard DRO approaches require enlarging the uncertainty set under large shifts, which leads to overly conservative and pessimistic policies. In this paper, we propose a framework for transfer under environment shift that derives a robust target-domain policy via estimate-centered uncertainty sets, constructed through constrained estimation that integrates limited target samples with side information about the source-target dynamics. The side information includes bounds on feature moments, distributional distances, and density ratios, yielding improved kernel estimates and tighter uncertainty sets. The side information includes bounds on feature moments, distributional distances, and density ratios, yielding improved kernel estimates and tighter uncertainty sets. Error bounds and convergence results are established for both robust and non-robust value functions. Moreover, we provide a finite-sample guarantee on the learned robust policy and analyze the robust sub-optimality gap. Under mild low-dimensional structure on the transition model, the side information reduces this gap and improves sample efficiency. We assess the performance of our approach across OpenAI Gym environments and classic control problems, consistently demonstrating superior target-domain performance over state-of-the-art robust and non-robust baselines.
- Abstract(参考訳): Robust Markov Decision Processs (MDPs) は、分散ロバストな最適化(DRO)を通じて、遷移カーネルの不確実性セット内で最適な最悪のポリシーを見つけることで、環境変化に対処する。
しかし、標準的なDROアプローチでは、大きなシフトの下で設定された不確実性を大きくする必要があるため、過度に保守的で悲観的な政策が導かれる。
本稿では,推定中心の不確実性集合を通じて頑健な目標ドメインポリシーを導出する環境シフト下での移動のためのフレームワークを提案する。
側情報には特徴モーメント、分布距離、密度比のバウンダリが含まれており、改良されたカーネル推定値とより厳密な不確実性集合が得られる。
側情報には特徴モーメント、分布距離、密度比のバウンダリが含まれており、改良されたカーネル推定値とより厳密な不確実性集合が得られる。
ロバストな値関数と非ロバストな値関数の両方に対して、誤差境界と収束結果が確立される。
さらに,学習されたロバストポリシーに対して有限サンプル保証を行い,ロバストな準最適ギャップを分析する。
遷移モデル上の軽度の低次元構造の下では、側情報はこのギャップを減らし、サンプル効率を向上させる。
我々は、OpenAI Gym環境と古典的な制御問題にまたがるアプローチの性能を評価し、最先端のロバストなベースラインと非ロバストなベースラインよりも優れたドメインパフォーマンスを一貫して示す。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - LLM-Centric RAG with Multi-Granular Indexing and Confidence Constraints [5.2604064919135896]
本稿では,複雑な知識環境下での検索強化生成において,不十分なカバレッジ,不安定な結果,信頼性の制限といった問題に対処する。
複数粒度メモリインデックスと不確実性推定を統合した信頼度制御法を提案する。
提案手法は,QA精度,検索リコール,ランキング品質,事実整合性において,既存モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-30T23:48:37Z) - An Uncertainty-aware DETR Enhancement Framework for Object Detection [10.102900613370817]
本稿では,DETRを用いた物体検出のための不確実性認識フレームワークを提案する。
我々はハイリスク情報をフィルタリングし、検出信頼性を向上させるベイズリスクの定式化を導出する。
COCOベンチマーク実験により,本手法を既存のDECR変種に効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2025-07-20T07:53:04Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - Provable Robust Overfitting Mitigation in Wasserstein Distributionally Robust Optimization [23.17991102874279]
本稿では,ワッサーシュタイン距離と統計的誤差による対向雑音に対する新しい不確実性セットの下で,新しいロバストな最適化フレームワークを提案する。
我々は,WDROの枠組みにおいて,ロバストなオーバーフィッティングを著しく軽減し,ロバスト性を高めることを実証した。
論文 参考訳(メタデータ) (2025-03-06T10:58:35Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Contextual Optimization under Covariate Shift: A Robust Approach by Intersecting Wasserstein Balls [18.047245099229325]
We propose a novel approach called Intersection Wasserstein-balls DRO (IW-DRO)。
IW-DROは分散ロバストな最適化フレームワークに複数の推定手法を統合する。
IW-DROは単一のWarsserstein-ball DROモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-04T15:46:41Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。