論文の概要: CoBERL: Contrastive BERT for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.05431v1
- Date: Mon, 12 Jul 2021 13:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-07-13 16:15:14.428578
- Title: CoBERL: Contrastive BERT for Reinforcement Learning
- Title(参考訳): CoBERL:強化学習のためのコントラストBERT
- Authors: Andrea Banino, Adri\`a Puidomenech Badia, Jacob Walker, Tim Scholtes,
Jovana Mitrovic, Charles Blundell
- Abstract要約: 本稿では,データ効率向上の課題に取り組むために,コントラストBERT for RL (CoBERL)を提案する。
CoBERLは、幅広い領域にわたるピクセルからの効率的で堅牢な学習を可能にする。
CoBERLは、完全なAtariスイート全体のパフォーマンスを一貫して改善しています。
- 参考スコア(独自算出の注目度): 11.103021421521746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many reinforcement learning (RL) agents require a large amount of experience
to solve tasks. We propose Contrastive BERT for RL (CoBERL), an agent that
combines a new contrastive loss and a hybrid LSTM-transformer architecture to
tackle the challenge of improving data efficiency. CoBERL enables efficient,
robust learning from pixels across a wide range of domains. We use
bidirectional masked prediction in combination with a generalization of recent
contrastive methods to learn better representations for transformers in RL,
without the need of hand engineered data augmentations. We find that CoBERL
consistently improves performance across the full Atari suite, a set of control
tasks and a challenging 3D environment.
- Abstract(参考訳): 多くの強化学習(RL)エージェントは、タスクを解決するために大量の経験を必要とする。
本稿では,新たなコントラスト損失とハイブリッドLSTM変換器アーキテクチャを組み合わせたエージェントであるContrastive BERT for RL (CoBERL)を提案する。
CoBERLは、幅広い領域にわたるピクセルからの効率的で堅牢な学習を可能にする。
我々は,最近のコントラスト法の一般化と組み合わせて,手作業によるデータ拡張を必要とせず,rlにおけるトランスフォーマーの表現改善を学習する。
CoBERLは、完全なAtariスイート、一連のコントロールタスク、挑戦的な3D環境において、一貫してパフォーマンスを改善しています。
関連論文リスト
- Two-Stage Active Distribution Network Voltage Control via LLM-RL Collaboration: A Hybrid Knowledge-Data-Driven Approach [30.16233658525027]
分散型太陽光発電をアクティブ配電ネットワーク(ADN)に統合することで、運用上の課題が悪化した。
既存のデータ駆動型アプローチは、電圧制御問題において有効であることを示した。
本稿では,大規模言語モデル (LLM) エージェントと強化学習 (RL) エージェントとの動的協調を利用するハイブリッドな知識データ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2026-02-25T09:22:27Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。
共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。
提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T06:41:07Z) - RLBenchNet: The Right Network for the Right Reinforcement Learning Task [1.1510009152620668]
強化学習(Reinforcement Learning, RL)は、さまざまなニューラルネットワークアーキテクチャの適用を通じて、大幅な進歩を遂げている。
本稿では,LLタスクにおける複数のニューラルネットワークの性能について検討する。例えば,Long Short-Term Memory (LSTM), Multi-Layer Perceptron (MLP), Mamba/Mamba-2, Transformer-XL, Gated Transformer-XL, Gated Recurrent Unit (GRU)である。
論文 参考訳(メタデータ) (2025-05-21T02:49:25Z) - Enhancing Reinforcement Learning for the Floorplanning of Analog ICs with Beam Search [0.32985979395737786]
本稿では,強化学習(RL)とビーム(BS)戦略を組み合わせたハイブリッド手法を提案する。
BSアルゴリズムはエージェントの推論プロセスを強化し、フレキシブルなフロアプランを生成する。
実験結果から, 標準RL法と比較すると, 面積, 死空間, 線長が約5~85%向上した。
論文 参考訳(メタデータ) (2025-05-08T08:50:32Z) - DreamerV3 for Traffic Signal Control: Hyperparameter Tuning and Performance [4.962905815955427]
強化学習(Reinforcement Learning, RL)は、スマートTSC戦略の開発において、広く研究されている技術である。
DreamerV3アルゴリズムはポリシー学習のための魅力的な特性を示す。
本稿では,TSC戦略学習のための世界モデルの利点を探るため,DreamerV3アルゴリズムを用いて廊下TSCモデルを訓練する。
論文 参考訳(メタデータ) (2025-03-04T05:02:46Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。