Fugu-MT 論文翻訳(概要): CoBERL: Contrastive BERT for Reinforcement Learning

論文の概要: CoBERL: Contrastive BERT for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2107.05431v1
Date: Mon, 12 Jul 2021 13:54:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-13 16:15:14.428578
Title: CoBERL: Contrastive BERT for Reinforcement Learning
Title（参考訳）: CoBERL:強化学習のためのコントラストBERT
Authors: Andrea Banino, Adri\`a Puidomenech Badia, Jacob Walker, Tim Scholtes, Jovana Mitrovic, Charles Blundell
Abstract要約: 本稿では,データ効率向上の課題に取り組むために,コントラストBERT for RL (CoBERL)を提案する。 CoBERLは、幅広い領域にわたるピクセルからの効率的で堅牢な学習を可能にする。 CoBERLは、完全なAtariスイート全体のパフォーマンスを一貫して改善しています。
参考スコア（独自算出の注目度）: 11.103021421521746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many reinforcement learning (RL) agents require a large amount of experience to solve tasks. We propose Contrastive BERT for RL (CoBERL), an agent that combines a new contrastive loss and a hybrid LSTM-transformer architecture to tackle the challenge of improving data efficiency. CoBERL enables efficient, robust learning from pixels across a wide range of domains. We use bidirectional masked prediction in combination with a generalization of recent contrastive methods to learn better representations for transformers in RL, without the need of hand engineered data augmentations. We find that CoBERL consistently improves performance across the full Atari suite, a set of control tasks and a challenging 3D environment.
Abstract（参考訳）: 多くの強化学習(RL)エージェントは、タスクを解決するために大量の経験を必要とする。本稿では,新たなコントラスト損失とハイブリッドLSTM変換器アーキテクチャを組み合わせたエージェントであるContrastive BERT for RL (CoBERL)を提案する。 CoBERLは、幅広い領域にわたるピクセルからの効率的で堅牢な学習を可能にする。我々は,最近のコントラスト法の一般化と組み合わせて,手作業によるデータ拡張を必要とせず,rlにおけるトランスフォーマーの表現改善を学習する。 CoBERLは、完全なAtariスイート、一連のコントロールタスク、挑戦的な3D環境において、一貫してパフォーマンスを改善しています。

関連論文リスト

Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T06:41:07Z)
RLBenchNet: The Right Network for the Right Reinforcement Learning Task [1.1510009152620668]
強化学習(Reinforcement Learning, RL)は、さまざまなニューラルネットワークアーキテクチャの適用を通じて、大幅な進歩を遂げている。本稿では,LLタスクにおける複数のニューラルネットワークの性能について検討する。例えば,Long Short-Term Memory (LSTM), Multi-Layer Perceptron (MLP), Mamba/Mamba-2, Transformer-XL, Gated Transformer-XL, Gated Recurrent Unit (GRU)である。
論文参考訳（メタデータ） (2025-05-21T02:49:25Z)
Enhancing Reinforcement Learning for the Floorplanning of Analog ICs with Beam Search [0.32985979395737786]
本稿では,強化学習(RL)とビーム(BS)戦略を組み合わせたハイブリッド手法を提案する。 BSアルゴリズムはエージェントの推論プロセスを強化し、フレキシブルなフロアプランを生成する。実験結果から, 標準RL法と比較すると, 面積, 死空間, 線長が約5～85%向上した。
論文参考訳（メタデータ） (2025-05-08T08:50:32Z)
DreamerV3 for Traffic Signal Control: Hyperparameter Tuning and Performance [4.962905815955427]
強化学習(Reinforcement Learning, RL)は、スマートTSC戦略の開発において、広く研究されている技術である。 DreamerV3アルゴリズムはポリシー学習のための魅力的な特性を示す。本稿では,TSC戦略学習のための世界モデルの利点を探るため,DreamerV3アルゴリズムを用いて廊下TSCモデルを訓練する。
論文参考訳（メタデータ） (2025-03-04T05:02:46Z)
Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文参考訳（メタデータ） (2024-01-16T16:28:32Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文参考訳（メタデータ） (2021-07-01T17:58:05Z)
Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。 ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文参考訳（メタデータ） (2020-09-14T19:11:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。