論文の概要: Optimistic critics can empower small actors
- arxiv url: http://arxiv.org/abs/2506.01016v1
- Date: Sun, 01 Jun 2025 14:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.898065
- Title: Optimistic critics can empower small actors
- Title(参考訳): 楽観的な批評家は小さな俳優に力を与える
- Authors: Olya Mastikhina, Dhruv Sreenivas, Pablo Samuel Castro,
- Abstract要約: 非対称なセットアップの利点、特により小さいアクターの使用について論じる。
一般的に、より小さなアクターはパフォーマンスの劣化と批評家の過度な適合をもたらす。
分析の結果,この行動の主な原因の一つとして,価値過小評価によるデータ収集が不十分であることが示唆された。
- 参考スコア(独自算出の注目度): 14.058002772699044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Actor-critic methods have been central to many of the recent advances in deep reinforcement learning. The most common approach is to use symmetric architectures, whereby both actor and critic have the same network topology and number of parameters. However, recent works have argued for the advantages of asymmetric setups, specifically with the use of smaller actors. We perform broad empirical investigations and analyses to better understand the implications of this and find that, in general, smaller actors result in performance degradation and overfit critics. Our analyses suggest poor data collection, due to value underestimation, as one of the main causes for this behavior, and further highlight the crucial role the critic can play in alleviating this pathology. We explore techniques to mitigate the observed value underestimation, which enables further research in asymmetric actor-critic methods.
- Abstract(参考訳): アクター批判的手法は、近年の深層強化学習の進歩の中心である。
最も一般的なアプローチは対称アーキテクチャを使うことであり、アクターと批評家は同じネットワークトポロジとパラメータの数を持つ。
しかし、最近の研究は非対称なセットアップ、特により小さいアクターの使用の利点を論じている。
我々は、この意味をより深く理解するために、幅広い経験的調査と分析を行い、一般に、より小さなアクターがパフォーマンスの劣化と過度な批判をもたらすことを発見した。
分析の結果、この行動の主な原因の一つとして、価値過小評価によるデータ収集が不十分であることが示唆され、この病理を緩和する上で批判が果たす重要な役割が強調された。
非対称なアクター・クリティカルな手法のさらなる研究を可能にするために,観測値の過小評価を緩和する手法について検討する。
関連論文リスト
- Studying the Interplay Between the Actor and Critic Representations in Reinforcement Learning [27.2866735011598]
我々は、俳優と批評家が、共有された表現よりも、別々に利益を得るかどうかを調査する。
我々の主要な発見は、分離されると、アクターと批評家の表現が、異なる種類の情報を取り出すことを体系的に専門化することである。
我々は、異なる表現学習アプローチが俳優や批評家の専門性にどのように影響するかを理解するために、厳密な実証的研究を行う。
論文 参考訳(メタデータ) (2025-03-08T21:29:20Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-17T15:28:40Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Unbiased Asymmetric Actor-Critic for Partially Observable Reinforcement
Learning [17.48572546628464]
非対称アクター批判法は、州ベースの批評家を通じて歴史に基づく政策を訓練することで、そのような情報を利用する。
我々は、状態に基づく批評家を用いた非対称アクター批判法の理論を検証し、共通の変種の有効性を損なう根本的な問題を明らかにする。
理論的に音を残しながら状態情報を活用できる非バイアス非対称アクター・クリティックな変種を提案する。
論文 参考訳(メタデータ) (2021-05-25T05:18:44Z) - Good Actors can come in Smaller Sizes: A Case Study on the Value of
Actor-Critic Asymmetry [47.312768123967025]
本ケーススタディでは,アクタと批評家のアーキテクチャを独立して考える場合,ネットワークサイズのパフォーマンスへの影響について検討する。
アーキテクチャ対称性の仮定を緩和することにより、小さなアクターが対称対称性と同等のポリシー性能を達成することが可能となる。
論文 参考訳(メタデータ) (2021-02-23T19:07:47Z) - Benchmarking Adversarial Robustness [47.168521143464545]
我々は、画像分類タスクにおける敵の堅牢性を評価するために、包括的で厳密でコヒーレントなベンチマークを確立する。
評価結果に基づいて,いくつかの重要な知見を導き,今後の研究への洞察を提供する。
論文 参考訳(メタデータ) (2019-12-26T12:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。