Fugu-MT 論文翻訳(概要): Learning Optimal and Sample-Efficient Decision Policies with Guarantees

論文の概要: Learning Optimal and Sample-Efficient Decision Policies with Guarantees

arxiv url: http://arxiv.org/abs/2602.17978v1
Date: Fri, 20 Feb 2026 04:24:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.225733
Title: Learning Optimal and Sample-Efficient Decision Policies with Guarantees
Title（参考訳）: 保証者による最適かつ高効率な意思決定政策の学習
Authors: Daqian Shao,
Abstract要約: この論文は、隠れた共同創設者の存在下で、オフラインデータセットから学ぶことの問題を解決する。コンバージェンスと最適性を保証する条件付きモーメント制約問題の解法として,サンプル効率のアルゴリズムを導出する。また,収束率保証を伴う効果的な模倣者ポリシーを学習するアルゴリズムも開発している。
参考スコア（独自算出の注目度）: 3.096615629099617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The paradigm of decision-making has been revolutionised by reinforcement learning and deep learning. Although this has led to significant progress in domains such as robotics, healthcare, and finance, the use of RL in practice is challenging, particularly when learning decision policies in high-stakes applications that may require guarantees. Traditional RL algorithms rely on a large number of online interactions with the environment, which is problematic in scenarios where online interactions are costly, dangerous, or infeasible. However, learning from offline datasets is hindered by the presence of hidden confounders. Such confounders can cause spurious correlations in the dataset and can mislead the agent into taking suboptimal or adversarial actions. Firstly, we address the problem of learning from offline datasets in the presence of hidden confounders. We work with instrumental variables (IVs) to identify the causal effect, which is an instance of a conditional moment restrictions (CMR) problem. Inspired by double/debiased machine learning, we derive a sample-efficient algorithm for solving CMR problems with convergence and optimality guarantees, which outperforms state-of-the-art algorithms. Secondly, we relax the conditions on the hidden confounders in the setting of (offline) imitation learning, and adapt our CMR estimator to derive an algorithm that can learn effective imitator policies with convergence rate guarantees. Finally, we consider the problem of learning high-level objectives expressed in linear temporal logic (LTL) and develop a provably optimal learning algorithm that improves sample efficiency over existing methods. Through evaluation on reinforcement learning benchmarks and synthetic and semi-synthetic datasets, we demonstrate the usefulness of the methods developed in this thesis in real-world decision making.
Abstract（参考訳）: 意思決定のパラダイムは、強化学習と深層学習によって革新されている。これはロボティクス、ヘルスケア、ファイナンスといった分野に大きな進歩をもたらしたが、特に保証を必要とするハイテイクなアプリケーションで意思決定ポリシーを学ぶ場合、実践におけるRLの使用は困難である。従来のRLアルゴリズムは環境との多数のオンラインインタラクションに依存しており、オンラインインタラクションがコストがかかる、危険である、あるいは実現不可能なシナリオでは問題となる。しかし、オフラインデータセットからの学習は、隠れた共同創設者の存在によって妨げられる。このような共同設立者はデータセットに急激な相関関係を生じさせ、エージェントを過度に誘導して、最適あるいは逆のアクションを取ることができる。まず、隠れた共同創設者の存在下で、オフラインデータセットから学習する問題に対処する。我々は、条件モーメント制限(CMR)問題の一例である因果効果を特定するために、インスツルメンタル変数(IVs)を用いて作業する。ダブル/デバイアスの機械学習にインスパイアされた我々は、収束と最適性を保証するCMR問題を解くためのサンプル効率のアルゴリズムを導出し、最先端のアルゴリズムより優れている。第二に、隠れた共同設立者の模擬学習(オフライン)の設定における条件を緩和し、CMR推定器を適応させて、収束率保証を伴う効果的な模倣者ポリシーを学習できるアルゴリズムを導出する。最後に,線形時間論理(LTL)で表される高次の目的を学習する問題を考察し,既存の手法よりもサンプル効率を向上する最適学習アルゴリズムを開発する。強化学習ベンチマークと合成および半合成データセットの評価を通じて,本論文で開発された手法が実世界の意思決定において有用であることを示す。

関連論文リスト

Sample Efficient Active Algorithms for Offline Reinforcement Learning [11.11852070175351]
オフライン強化学習(英語版) (RL) は静的データからポリシー学習を可能にするが、状態-作用空間や分散シフトの問題に悩まされることが多い。本稿では,ガウス過程(GP)の不確実性モデリングのレンズを用いて,ActiveRLの厳密な試料複雑度解析法を開発した。その結果,ActiveRLは最適に近い情報効率,すなわちガイド付き不確実性低減を実現し,最小限のオンラインデータで値関数収束を加速させることがわかった。
論文参考訳（メタデータ） (2026-02-01T14:38:07Z)
What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文参考訳（メタデータ） (2025-05-12T21:24:22Z)
Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文参考訳（メタデータ） (2025-03-15T18:12:16Z)
RESIST: Resilient Decentralized Learning Using Consensus Gradient Descent [11.22833419439317]
経験的堅牢性リスク(ERM)は、現代の機械学習(ML)の基盤である本稿では,MITM(man-in-the-middle)攻撃に焦点をあてる。本稿では,敵に妥協された通信リンクに対して堅牢なアルゴリズムであるRESISTを提案する。
論文参考訳（メタデータ） (2025-02-11T21:48:10Z)
Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文参考訳（メタデータ） (2024-12-21T10:18:55Z)
Dynamic Environment Responsive Online Meta-Learning with Fairness Awareness [30.44174123736964]
本稿では,FairSAOMLと呼ばれる,適応フェアネスを考慮したオンラインメタ学習アルゴリズムを提案する。動的環境下での様々な実世界のデータセットに対する実験評価により,提案アルゴリズムが一貫した代替手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-19T17:44:35Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文参考訳（メタデータ） (2023-02-06T14:03:33Z)
Improving Behavioural Cloning with Positive Unlabeled Learning [15.484227081812852]
本稿では,混合品質のロボットデータセットにおける専門家の軌跡を特定するための,新しい反復学習アルゴリズムを提案する。結果のフィルタデータセットに行動クローンを適用することで、競合するオフライン強化学習と模倣学習ベースラインを上回っます。
論文参考訳（メタデータ） (2023-01-27T14:17:45Z)
Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文参考訳（メタデータ） (2022-11-08T04:06:23Z)
Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文参考訳（メタデータ） (2021-04-14T14:20:22Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。