論文の概要: Pay Attention to What and Where? Interpretable Feature Extractor in Vision-based Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.10071v1
- Date: Mon, 14 Apr 2025 10:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:36.489259
- Title: Pay Attention to What and Where? Interpretable Feature Extractor in Vision-based Deep Reinforcement Learning
- Title(参考訳): 視力に基づく深層強化学習における解釈可能な特徴エクストラクタ
- Authors: Tien Pham, Angelo Cangelosi,
- Abstract要約: 説明可能な深層強化学習における現在のアプローチは、視覚入力中の物体に注意マスクが変位する制限がある。
本研究では,エージェントが空間領域に集中している「何」と「どこに」の両方を正確に表現するために,正確な注意マスクを生成するための解釈可能な特徴外的アーキテクチャを提案する。
得られたアテンションマスクは、人間によって一貫性があり、空間次元が正確であり、視覚入力における重要な物体や位置を効果的に強調する。
- 参考スコア(独自算出の注目度): 2.713322720372114
- License:
- Abstract: Current approaches in Explainable Deep Reinforcement Learning have limitations in which the attention mask has a displacement with the objects in visual input. This work addresses a spatial problem within traditional Convolutional Neural Networks (CNNs). We propose the Interpretable Feature Extractor (IFE) architecture, aimed at generating an accurate attention mask to illustrate both "what" and "where" the agent concentrates on in the spatial domain. Our design incorporates a Human-Understandable Encoding module to generate a fully interpretable attention mask, followed by an Agent-Friendly Encoding module to enhance the agent's learning efficiency. These two components together form the Interpretable Feature Extractor for vision-based deep reinforcement learning to enable the model's interpretability. The resulting attention mask is consistent, highly understandable by humans, accurate in spatial dimension, and effectively highlights important objects or locations in visual input. The Interpretable Feature Extractor is integrated into the Fast and Data-efficient Rainbow framework, and evaluated on 57 ATARI games to show the effectiveness of the proposed approach on Spatial Preservation, Interpretability, and Data-efficiency. Finally, we showcase the versatility of our approach by incorporating the IFE into the Asynchronous Advantage Actor-Critic Model.
- Abstract(参考訳): 説明可能な深層強化学習における現在のアプローチは、視覚入力中の物体に注意マスクが変位する制限がある。
この研究は、従来の畳み込みニューラルネットワーク(CNN)における空間問題に対処する。
本研究では,エージェントが空間領域に集中している「何」と「どこに」の両方を示すために,正確な注意マスクを生成するためのIFEアーキテクチャを提案する。
我々の設計では、完全に解釈可能なアテンションマスクを生成するHuman-Understandable Encodingモジュールと、エージェントの学習効率を高めるAgent-Friendly Encodingモジュールが組み込まれている。
これら2つのコンポーネントは、モデルの解釈可能性を実現するために、視覚に基づく深層強化学習のための解釈可能な特徴エクストラクタを形成する。
得られたアテンションマスクは、人間によって一貫性があり、空間次元が正確であり、視覚入力における重要な物体や位置を効果的に強調する。
In the Interpretable Feature Extractor is integrated into the Fast and Data- efficient Rainbow framework, and evaluation on 57 ATARI games that the proposed approach on Spatial Preservation, Interpretability, and Data-efficiency。
最後に、IFEを非同期アドバンテージアクター批判モデルに組み込むことにより、我々のアプローチの汎用性を示す。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness [44.15562068190958]
オペレーティングルームでは、セマンティックセグメンテーションは、臨床環境を認識したロボットを作るための中核である。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T17:17:52Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - TMHOI: Translational Model for Human-Object Interaction Detection [18.804647133922195]
人-物間相互作用(HOI)を検出するための革新的なグラフベースアプローチを提案する。
本手法は,空間的知識と意味的知識を統合することで,HOIの感情表現を効果的に捉える。
我々のアプローチは、既存の最先端のグラフベースの手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-03-07T21:52:10Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。
Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。
Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文 参考訳(メタデータ) (2020-06-26T15:31:57Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。