Fugu-MT 論文翻訳(概要): For SALE: State-Action Representation Learning for Deep Reinforcement Learning

論文の概要: For SALE: State-Action Representation Learning for Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.02451v2
Date: Sun, 5 Nov 2023 16:31:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 22:17:17.120766
Title: For SALE: State-Action Representation Learning for Deep Reinforcement Learning
Title（参考訳）: SALE:Deep Reinforcement Learningのためのステートアクション表現学習
Authors: Scott Fujimoto, Wei-Di Chang, Edward J. Smith, Shixiang Shane Gu, Doina Precup, David Meger
Abstract要約: SALEは、状態と行動の間のニュアンスな相互作用をモデル化する埋め込みを学ぶための新しいアプローチである。我々は、SALEとRLのチェックポイントをTD3に統合し、TD7アルゴリズムを構成する。 OpenAIのジムのベンチマークタスクでは、TD7は平均276.7%、TD3よりも50.7%、それぞれ300k、500Mのタイムステップでパフォーマンスが向上している。
参考スコア（独自算出の注目度）: 60.42044715596703
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the field of reinforcement learning (RL), representation learning is a proven tool for complex image-based tasks, but is often overlooked for environments with low-level states, such as physical control problems. This paper introduces SALE, a novel approach for learning embeddings that model the nuanced interaction between state and action, enabling effective representation learning from low-level states. We extensively study the design space of these embeddings and highlight important design considerations. We integrate SALE and an adaptation of checkpoints for RL into TD3 to form the TD7 algorithm, which significantly outperforms existing continuous control algorithms. On OpenAI gym benchmark tasks, TD7 has an average performance gain of 276.7% and 50.7% over TD3 at 300k and 5M time steps, respectively, and works in both the online and offline settings.
Abstract（参考訳）: 強化学習(RL)の分野では、表現学習は複雑な画像に基づくタスクのための証明済みのツールであるが、物理制御問題などの低レベル状態の環境では見過ごされがちである。本稿では,状態と動作の相互作用をモデル化し,低レベル状態からの効果的な表現学習を可能にする,埋め込み学習の新しいアプローチであるSALEを紹介する。我々はこれらの埋め込みの設計空間を広く研究し、重要な設計上の考察を強調した。我々は、SALEとRLのチェックポイントをTD3に組み込んでTD7アルゴリズムを作り、既存の連続制御アルゴリズムを著しく上回っている。 openai gymベンチマークタスクでは、td7は平均パフォーマンスが276.7%、td3が3kと5mのタイムステップで50.7%向上し、オンラインとオフラインの両方で動作します。

関連論文リスト

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning [35.44151923549777]
VLA(Vision-Language-Action)モデルは最近、印象的な一般化と言語誘導操作機能を示している。視覚言語モデル(VLM)から受け継いだ空間的推論の制限による空間的推論の精度の低下本稿では,プレトレーニングした深度予測モジュールを通じて空間認識を明示的に組み込んだ,シンプルで効果的なVLAアーキテクチャであるDepthVLAを提案する。
論文参考訳（メタデータ） (2025-10-15T10:09:00Z)
Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints [32.9206867882979]
モデル出力に特別に設計されたアクティベーションを適用することで、与えられた閾値以上のサンプリングエントロピーを制約する新しいパラダイムであるERAを提案する。我々の研究は、出力の活性化をエントロピー制御の強力なツールとして評価し、よりシンプルで堅牢なアルゴリズムを設計するための新たな方向性を開拓する。
論文参考訳（メタデータ） (2025-10-09T17:56:17Z)
ACT360: An Efficient 360-Degree Action Detection and Summarization Framework for Mission-Critical Training and Debriefing [3.781421673607643]
ACT360は、360度ビデオと機械学習を利用して、自動アクション検出と構造化リーフを行うシステムである。 ACT360は、拡張されたYou Only Watch Once (YOWO)モデルである360YOWOを統合し、空間的注意と等方形認識畳み込み(EAC)によりパノラマビデオの歪みを緩和する。 55のラベル付き360度ビデオの公開データセットに対して,我々のアプローチを検証した。
論文参考訳（メタデータ） (2025-03-17T06:12:36Z)
LADDER: Self-Improving LLMs Through Recursive Problem Decomposition [0.0]
LADDERは、大規模言語モデルが問題解決能力を自律的に改善できるフレームワークである。数学的統合の課題において, LADDERの有効性を実証する。また、TTRLを導入し、推論時にテスト問題の変種について強化学習を行う。
論文参考訳（メタデータ） (2025-03-02T05:16:43Z)
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。 TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文参考訳（メタデータ） (2024-11-11T18:59:45Z)
MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文参考訳（メタデータ） (2024-10-19T04:31:54Z)
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。 VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文参考訳（メタデータ） (2024-06-14T17:49:55Z)
ActiveAnno3D -- An Active Learning Framework for Multi-Modal 3D Object Detection [15.885344033374393]
ラベル付けのためのデータサンプルを選択するためのアクティブラーニングフレームワークであるActiveAnno3Dを提案する。我々は nuScenes と TUM Traffic Intersection データセット上で BEVFusion と PV-RCNN を用いて実験およびアブレーション研究を行った。アクティブな学習フレームワークをproAnnoラベリングツールに統合し、AIによるデータ選択とラベリングを可能にします。
論文参考訳（メタデータ） (2024-02-05T17:52:58Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。 TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2023-06-22T22:21:53Z)
Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文参考訳（メタデータ） (2021-12-09T19:13:41Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)
SEED: Self-supervised Distillation For Visual Representation [34.63488756535054]
SEED(Self-SupErvised Distillation)と呼ばれる新しい学習パラダイムを提案し、自己監督的な方法でその表現的知識を小さなアーキテクチャ(学生)に転送します。私達はSEEDが下流の仕事の小さいネットワークの性能を劇的に高めることを示します。
論文参考訳（メタデータ） (2021-01-12T20:04:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。