Fugu-MT 論文翻訳(概要): Light-weight probing of unsupervised representations for Reinforcement Learning

論文の概要: Light-weight probing of unsupervised representations for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2208.12345v2
Date: Fri, 31 May 2024 21:36:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 23:55:24.630544
Title: Light-weight probing of unsupervised representations for Reinforcement Learning
Title（参考訳）: 強化学習のための教師なし表現の軽量な探索
Authors: Wancong Zhang, Anthony GX-Chen, Vlad Sobal, Yann LeCun, Nicolas Carion,
Abstract要約: 線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
参考スコア（独自算出の注目度）: 20.638410483549706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised visual representation learning offers the opportunity to leverage large corpora of unlabeled trajectories to form useful visual representations, which can benefit the training of reinforcement learning (RL) algorithms. However, evaluating the fitness of such representations requires training RL algorithms which is computationally intensive and has high variance outcomes. Inspired by the vision community, we study whether linear probing can be a proxy evaluation task for the quality of unsupervised RL representation. Specifically, we probe for the observed reward in a given state and the action of an expert in a given state, both of which are generally applicable to many RL domains. Through rigorous experimentation, we show that the probing tasks are strongly rank correlated with the downstream RL performance on the Atari100k Benchmark, while having lower variance and up to 600x lower computational cost. This provides a more efficient method for exploring the space of pretraining algorithms and identifying promising pretraining recipes without the need to run RL evaluations for every setting. Leveraging this framework, we further improve existing self-supervised learning (SSL) recipes for RL, highlighting the importance of the forward model, the size of the visual backbone, and the precise formulation of the unsupervised objective.
Abstract（参考訳）: 教師なしの視覚表現学習は、ラベルなし軌跡の大きなコーパスを利用して有用な視覚表現を形成する機会を与え、強化学習(RL)アルゴリズムの訓練に役立てることができる。しかし、そのような表現の適合性を評価するには、計算集約的でばらつきの高いRLアルゴリズムを訓練する必要がある。ビジョンコミュニティに触発されて、線形探索が教師なしRL表現の品質のプロキシ評価タスクになるかどうかを考察する。具体的には、与えられた状態における観察された報酬と、与えられた状態における専門家の作用を探索する。厳密な実験により、探索タスクは、Atari100kベンチマークの下流RL性能と強く相関し、ばらつきが低く、計算コストが最大600倍も低いことを示す。これにより、設定毎にRL評価を実行することなく、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを識別するより効率的な方法が提供される。このフレームワークを活用することで、RLの既存の自己教師あり学習(SSL)レシピをさらに改善し、フォワードモデルの重要性、視覚的バックボーンのサイズ、教師なし目的の正確な定式化を強調します。

関連論文リスト

The Art of Scaling Reinforcement Learning Compute for LLMs [52.71086085139566]
強化学習(RL)は、大規模言語モデルの訓練の中心となっている。計算予算の急激な増加にもかかわらず、RL計算のスケーリングにおけるアルゴリズム改善の評価方法に関する原則的な理解は存在しない。我々は,約40万時間以上のGPU時間を有する,最初の大規模体系的な研究を提示する。
論文参考訳（メタデータ） (2025-10-15T17:43:03Z)
ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文参考訳（メタデータ） (2025-09-22T13:00:35Z)
VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。 SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
RLInspect: An Interactive Visual Approach to Assess Reinforcement Learning Algorithm [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の急速に成長する分野である。 RLモデルを評価することは困難であり、その振る舞いを理解するのが難しくなる。我々はインタラクティブな視覚分析ツールであるRLInspectを開発した。 RLモデルのさまざまなコンポーネント - 状態、アクション、エージェントアーキテクチャ、報酬 - を考慮しており、RLトレーニングのより包括的なビューを提供する。
論文参考訳（メタデータ） (2024-11-13T07:24:14Z)
DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文参考訳（メタデータ） (2024-06-30T09:15:21Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文参考訳（メタデータ） (2022-06-15T14:34:15Z)
Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文参考訳（メタデータ） (2022-01-28T13:07:11Z)
Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文参考訳（メタデータ） (2021-09-28T10:11:07Z)
Cross-Trajectory Representation Learning for Zero-Shot Generalization in RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文参考訳（メタデータ） (2021-06-04T00:43:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。