Fugu-MT 論文翻訳(概要): BarlowRL: Barlow Twins for Data-Efficient Reinforcement Learning

論文の概要: BarlowRL: Barlow Twins for Data-Efficient Reinforcement Learning

arxiv url: http://arxiv.org/abs/2308.04263v3
Date: Thu, 12 Oct 2023 11:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 03:21:48.170085
Title: BarlowRL: Barlow Twins for Data-Efficient Reinforcement Learning
Title（参考訳）: BarlowRL:データ効率の良い強化学習のためのバローツイン
Authors: Omer Veysel Cagatan, Baris Akgun
Abstract要約: BarlowRLはデータ効率の強化学習剤である。 Barlow Twinsの自己教師型学習フレームワークとDER(Data-Efficient Rainbow)アルゴリズムを組み合わせる。 BarlowRLはAtari 100kベンチマークでDERとそれと対照的なCURLの両方を上回っている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces BarlowRL, a data-efficient reinforcement learning agent that combines the Barlow Twins self-supervised learning framework with DER (Data-Efficient Rainbow) algorithm. BarlowRL outperforms both DER and its contrastive counterpart CURL on the Atari 100k benchmark. BarlowRL avoids dimensional collapse by enforcing information spread to the whole space. This helps RL algorithms to utilize uniformly spread state representation that eventually results in a remarkable performance. The integration of Barlow Twins with DER enhances data efficiency and achieves superior performance in the RL tasks. BarlowRL demonstrates the potential of incorporating self-supervised learning techniques to improve RL algorithms.
Abstract（参考訳）: 本稿では,Barlow Twins自己教師型学習フレームワークとDER(Data-Efficient Rainbow)アルゴリズムを組み合わせたデータ効率強化学習エージェントBarlowRLを紹介する。 BarlowRLはAtari 100kベンチマークでDERとそれと対照的なCURLの両方を上回っている。 BarlowRLは空間全体に広がる情報を強制することによって次元的崩壊を避ける。これにより、RLアルゴリズムは、最終的に顕著なパフォーマンスをもたらす一様拡散状態表現を利用することができる。 Barlow TwinsとDERの統合により、データ効率が向上し、RLタスクのパフォーマンスが向上する。 BarlowRLは、RLアルゴリズムを改善するために自己教師付き学習技術を導入する可能性を示している。

関連論文リスト

RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。 RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文参考訳（メタデータ） (2025-10-22T04:19:37Z)
DinoTwins: Combining DINO and Barlow Twins for Robust, Label-Efficient Vision Transformers [0.0]
DINO (Teacher-Student Learning) と Barlow Twins (Landance reduction) を組み合わせて,ラベルが少なく,計算能力も低いモデルを構築します。予備的な結果は、組み合わせたアプローチは、強い特徴表現を維持しながら、DINOに匹敵する損失と分類精度を達成できることを示している。
論文参考訳（メタデータ） (2025-08-24T20:18:05Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。 Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文参考訳（メタデータ） (2025-01-22T04:01:17Z)
DRL-AdaPart: DRL-Driven Adaptive STAR-RIS Partitioning for Fair and Frugal Resource Utilization [10.497111272905917]
ユーザ毎に割り当てられるSTAR-RIS要素の個数を決定する。本研究は,STAR-RISの位相シフトと地下配置変数の位相シフトを,適切に調整された深部強化学習(DRL)アルゴリズムを用いて最適化する。 DRLモデルにはペナルティ項が組み込まれ、必要がなければSTAR-RIS要素をインテリジェントに非活性化することにより資源利用が促進される。
論文参考訳（メタデータ） (2024-07-09T13:56:59Z)
The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文参考訳（メタデータ） (2024-02-04T21:22:29Z)
Guarding Barlow Twins Against Overfitting with Mixed Samples [27.7244906436942]
自己教師付き学習は、ラベル付きデータに頼ることなく、下流アプリケーションのための転送可能な特徴表現を学習することを目的としている。線形補間標本を用いたBarlow Twinsトレーニングにおけるサンプルインタラクションの改善を目的としたMixed Barlow Twinsを紹介した。
論文参考訳（メタデータ） (2023-12-04T18:59:36Z)
SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。 SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文参考訳（メタデータ） (2023-06-29T05:16:25Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
Train a Real-world Local Path Planner in One Hour via Partially Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文参考訳（メタデータ） (2023-05-07T03:39:31Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Automating DBSCAN via Deep Reinforcement Learning [73.82740568765279]
本稿では,DBSCANの自動パラメータ検索フレームワークであるDRL-DBSCANを提案する。このフレームワークは、クラスタリング環境をマルコフ決定プロセスとして知覚することで、パラメータ探索方向を調整する過程をモデル化する。このフレームワークはDBSCANクラスタリングの精度を最大で26%、25%改善している。
論文参考訳（メタデータ） (2022-08-09T04:40:11Z)
Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文参考訳（メタデータ） (2022-06-15T14:34:15Z)
POAR: Efficient Policy Optimization via Online Abstract State Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文参考訳（メタデータ） (2021-09-17T16:52:03Z)
Provably Efficient Representation Selection in Low-rank Markov Decision Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。 Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文参考訳（メタデータ） (2021-06-22T17:16:50Z)
Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文参考訳（メタデータ） (2020-04-30T17:35:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。