Fugu-MT 論文翻訳(概要): Graphical Object-Centric Actor-Critic

論文の概要: Graphical Object-Centric Actor-Critic

arxiv url: http://arxiv.org/abs/2310.17178v1
Date: Thu, 26 Oct 2023 06:05:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 21:40:23.720759
Title: Graphical Object-Centric Actor-Critic
Title（参考訳）: グラフィカルオブジェクト中心アクター批判
Authors: Leonid Ugadiarov, Aleksandr I. Panov
Abstract要約: 本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
参考スコア（独自算出の注目度）: 55.2480439325792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There have recently been significant advances in the problem of unsupervised object-centric representation learning and its application to downstream tasks. The latest works support the argument that employing disentangled object representations in image-based object-centric reinforcement learning tasks facilitates policy learning. We propose a novel object-centric reinforcement learning algorithm combining actor-critic and model-based approaches to utilize these representations effectively. In our approach, we use a transformer encoder to extract object representations and graph neural networks to approximate the dynamics of an environment. The proposed method fills a research gap in developing efficient object-centric world models for reinforcement learning settings that can be used for environments with discrete or continuous action spaces. Our algorithm performs better in a visually complex 3D robotic environment and a 2D environment with compositional structure than the state-of-the-art model-free actor-critic algorithm built upon transformer architecture and the state-of-the-art monolithic model-based algorithm.
Abstract（参考訳）: 近年,教師なしオブジェクト中心表現学習の課題と下流タスクへの応用が著しい進歩を遂げている。最新の研究は、画像に基づくオブジェクト中心強化学習タスクにおいて、不整合オブジェクト表現を用いることがポリシー学習を促進するという議論を支持する。本稿では,これらの表現を効果的に活用するために,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。提案手法では,トランスフォーマーエンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し,環境のダイナミクスを近似する。提案手法は、離散的または連続的な行動空間を持つ環境に使用できる強化学習環境のための効率的なオブジェクト中心世界モデルの開発における研究ギャップを埋めるものである。本アルゴリズムは,トランスフォーマアーキテクチャとモノリシックなモノリシックなモデルベースアルゴリズムに基づいて構築された,最先端のモデルフリーアクタークリティカルアルゴリズムよりも複雑な3次元ロボット環境と構成構造を持つ2次元環境において,優れた性能を発揮する。

関連論文リスト

Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文参考訳（メタデータ） (2024-12-09T12:27:21Z)
Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-21T17:59:31Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2022-09-29T15:24:47Z)
Object Detection with Deep Reinforcement Learning [0.0]
深層強化学習に基づく新しいアクティブオブジェクトローカライゼーションアルゴリズムを実装した。我々は,このMDPに対して,階層的手法と動的手法の2つの異なるアクション設定を比較した。
論文参考訳（メタデータ） (2022-08-09T02:34:53Z)
Curious Exploration via Structured World Models Yields Zero-Shot Object Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文参考訳（メタデータ） (2022-06-22T22:08:50Z)
Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。 OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文参考訳（メタデータ） (2022-06-14T15:40:47Z)
Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2022-05-06T16:27:14Z)
Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文参考訳（メタデータ） (2021-10-27T04:27:28Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)
Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文参考訳（メタデータ） (2020-05-25T17:56:29Z)
Relevance-Guided Modeling of Object Dynamics for Reinforcement Learning [0.0951828574518325]
現在の深層強化学習(RL)アプローチでは、環境に関する最小限の事前知識が組み込まれている。本稿では,最小限およびタスク固有のオブジェクト表現を迅速に決定するために,オブジェクトのダイナミクスと振る舞いを推論するフレームワークを提案する。また、オブジェクト表現と標準RLと計画アルゴリズムを用いて、Atariゲームにおけるこのフレームワークの可能性を強調し、既存の深層RLアルゴリズムよりも劇的に高速に学習する。
論文参考訳（メタデータ） (2020-03-03T08:18:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。