論文の概要: Deep Reinforcement Learning via Object-Centric Attention
- arxiv url: http://arxiv.org/abs/2504.03024v1
- Date: Thu, 03 Apr 2025 20:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:13.411971
- Title: Deep Reinforcement Learning via Object-Centric Attention
- Title(参考訳): 物体中心の注意による深層強化学習
- Authors: Jannis Blüml, Cedric Derstroff, Bjarne Gregori, Elisabeth Dillies, Quentin Delfosse, Kristian Kersting,
- Abstract要約: タスク関連エンティティを選択的に保存し,無関係な視覚情報をフィルタリングするOcCAM(Object-Centric Attention via Masking)を導入する。
OCCAMは、従来のピクセルベースのRLと類似または類似した性能を示しながら、新しい摂動を著しく改善し、サンプルの複雑さを低減させる。
- 参考スコア(独自算出の注目度): 17.623937562865617
- License:
- Abstract: Deep reinforcement learning agents, trained on raw pixel inputs, often fail to generalize beyond their training environments, relying on spurious correlations and irrelevant background details. To address this issue, object-centric agents have recently emerged. However, they require different representations tailored to the task specifications. Contrary to deep agents, no single object-centric architecture can be applied to any environment. Inspired by principles of cognitive science and Occam's Razor, we introduce Object-Centric Attention via Masking (OCCAM), which selectively preserves task-relevant entities while filtering out irrelevant visual information. Specifically, OCCAM takes advantage of the object-centric inductive bias. Empirical evaluations on Atari benchmarks demonstrate that OCCAM significantly improves robustness to novel perturbations and reduces sample complexity while showing similar or improved performance compared to conventional pixel-based RL. These results suggest that structured abstraction can enhance generalization without requiring explicit symbolic representations or domain-specific object extraction pipelines.
- Abstract(参考訳): 生のピクセル入力に基づいて訓練された深層強化学習エージェントは、しばしば、急激な相関と無関係な背景情報に頼って、訓練環境を超えて一般化することができない。
この問題に対処するため、オブジェクト中心のエージェントが最近登場した。
しかし、それらはタスク仕様に合わせて異なる表現を必要とする。
ディープエージェントとは対照的に、どんな環境にも単一のオブジェクト中心アーキテクチャを適用することはできない。
認知科学とOccam's Razorの原理にヒントを得て,タスク関連エンティティを選択的に保存し,無関係な視覚情報をフィルタリングするOCCAM(Object-Centric Attention via Masking)を導入する。
具体的には、OCCAMはオブジェクト中心の帰納バイアスを利用する。
Atariベンチマークの実証評価では、OCCAMは新しい摂動に対する堅牢性を大幅に改善し、従来のピクセルベースのRLと比較して、類似または改善された性能を示しながら、サンプルの複雑さを低減している。
これらの結果は、構造的抽象化は、明示的な記号表現やドメイン固有のオブジェクト抽出パイプラインを必要とせず、一般化を高めることができることを示唆している。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Selective Visual Representations Improve Convergence and Generalization
for Embodied AI [44.33711781750707]
身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。
これは学習プロセス内のノイズを導入し、タスク関連視覚的手がかりからエージェントの焦点を逸脱させる。
人間が経験、知識、課題に基づいて知覚をフィルタリングするプロセスにおいて、人間の選択的な注意を喚起して、我々は、具体化されたAIのための視覚刺激をフィルタリングするためのパラメータ効率の良いアプローチを導入する。
論文 参考訳(メタデータ) (2023-11-07T18:34:02Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - OCAtari: Object-Centric Atari 2600 Reinforcement Learning Environments [20.034972354302788]
我々は,OCAtariの導入により,深層RLアプローチの最も有用な評価フレームワークであるAtari Learning Environmentsを拡張した。
我々のフレームワークは、オブジェクト発見、オブジェクト表現学習、およびオブジェクト中心のRLを可能にします。
論文 参考訳(メタデータ) (2023-06-14T17:28:46Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Towards Self-Supervised Learning of Global and Object-Centric
Representations [4.36572039512405]
自己スーパービジョンを用いた構造化対象中心表現の学習における重要な側面について論じる。
CLEVRデータセットに関するいくつかの実験を通じて、私たちの洞察を検証します。
論文 参考訳(メタデータ) (2022-03-11T15:18:47Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。