論文の概要: Deep Actor-Critics with Tight Risk Certificates
- arxiv url: http://arxiv.org/abs/2505.19682v1
- Date: Mon, 26 May 2025 08:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.28668
- Title: Deep Actor-Critics with Tight Risk Certificates
- Title(参考訳): タイトリスク証明書付きディープアクター批判
- Authors: Bahareh Tasdighi, Manuel Haussmann, Yi-Shan Wu, Andres R. Masegosa, Melih Kandemir,
- Abstract要約: 本研究では,深いアクター・クリティカルなアルゴリズムに対して,厳密なリスク証明書を開発可能であることを示す。
事前訓練された政策から収集された評価ロールアウトの小さな可能性が、正確なリスク証明書を作成するのに十分である。
- 参考スコア(独自算出の注目度): 10.247125804660994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: After a period of research, deep actor-critic algorithms have reached a level where they influence our everyday lives. They serve as the driving force behind the continual improvement of large language models through user-collected feedback. However, their deployment in physical systems is not yet widely adopted, mainly because no validation scheme that quantifies their risk of malfunction. We demonstrate that it is possible to develop tight risk certificates for deep actor-critic algorithms that predict generalization performance from validation-time observations. Our key insight centers on the effectiveness of minimal evaluation data. Surprisingly, a small feasible of evaluation roll-outs collected from a pretrained policy suffices to produce accurate risk certificates when combined with a simple adaptation of PAC-Bayes theory. Specifically, we adopt a recently introduced recursive PAC-Bayes approach, which splits validation data into portions and recursively builds PAC-Bayes bounds on the excess loss of each portion's predictor, using the predictor from the previous portion as a data-informed prior. Our empirical results across multiple locomotion tasks and policy expertise levels demonstrate risk certificates that are tight enough to be considered for practical use.
- Abstract(参考訳): 研究期間を経て、深いアクター・クリティカルなアルゴリズムが私たちの日常生活に影響を与えるレベルに達しました。
それらは、ユーザによるフィードバックを通じて、大きな言語モデルの継続的な改善の原動力となる。
しかし、それらの物理システムへの展開は、主に誤動作のリスクを定量化するバリデーションスキームが存在しないため、まだ広く採用されていない。
検証時間観測から一般化性能を予測するディープアクター批判アルゴリズムの厳密なリスク証明を開発することが可能であることを実証した。
我々の重要な洞察は、最小限の評価データの有効性に焦点を当てている。
PAC-Bayes理論の簡単な適応と組み合わせて正確なリスク証明書を作成するのに、事前訓練済みの方針書から得られた評価ロールアウトの小さな可能性を秘めている。
具体的には、最近導入された再帰的PAC-Bayesアプローチを採用し、検証データを分割し、各部分の予測器の余剰損失に基づいてPAC-Bayes境界を再帰的に構築する。
複数の移動タスクと政策専門レベルにわたる実証的な結果から、実用上考慮すべきほど厳密なリスク証明書が示されています。
関連論文リスト
- Tight PAC-Bayesian Risk Certificates for Contrastive Learning [6.944372188747803]
コントラスト表現学習のための非空白のPACベイズリスク証明書を開発した。
我々は、データ拡張や温度スケーリングを含むSimCLR固有の要因を取り入れ、対照的なゼロワンリスクのリスク証明書を導出する。
論文 参考訳(メタデータ) (2024-12-04T17:23:35Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Progress in Self-Certified Neural Networks [13.434562713466246]
学習方法は、すべての利用可能なデータを用いて予測器を同時に学習し、その品質を認証した場合、自己証明される。
最近の研究では、PAC-Bayes境界の最適化によってトレーニングされたニューラルネットワークモデルが正確な予測に結びつくことが示されている。
本研究では,データ飢餓体制において,テストセット境界のデータを保持することが一般化性能に悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-11-15T13:39:44Z) - RATT: Leveraging Unlabeled Data to Guarantee Generalization [96.08979093738024]
ラベルのないデータを利用して一般化境界を生成する手法を紹介します。
境界が0-1経験的リスク最小化に有効であることを証明します。
この作業は、見えないラベル付きデータが利用できない場合でも、ディープネットの一般化を証明するためのオプションを実践者に提供します。
論文 参考訳(メタデータ) (2021-05-01T17:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。