論文の概要: Gaze on the Prize: Shaping Visual Attention with Return-Guided Contrastive Learning
- arxiv url: http://arxiv.org/abs/2510.08442v1
- Date: Thu, 09 Oct 2025 16:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.213998
- Title: Gaze on the Prize: Shaping Visual Attention with Return-Guided Contrastive Learning
- Title(参考訳): Gaze on the Prize:Return-Guided Contrastive Learningによる視覚的注意の形成
- Authors: Andrew Lee, Ian Chuang, Dechen Gao, Kai Fukazawa, Iman Soltani,
- Abstract要約: 視覚強化学習(RL)エージェントは,少数のピクセルだけがタスク関連である高次元画像データに基づいて,行動を学ぶ必要がある。
このフレームワークは、自己監督信号によって誘導される学習可能な焦点注意機構で視覚的RLを増強する。
提案手法は, サンプル効率の最大2.4倍の改善を実現し, ベースラインの学習に失敗するタスクを解くことができる。
- 参考スコア(独自算出の注目度): 2.736848514829367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Reinforcement Learning (RL) agents must learn to act based on high-dimensional image data where only a small fraction of the pixels is task-relevant. This forces agents to waste exploration and computational resources on irrelevant features, leading to sample-inefficient and unstable learning. To address this, inspired by human visual foveation, we introduce Gaze on the Prize. This framework augments visual RL with a learnable foveal attention mechanism (Gaze), guided by a self-supervised signal derived from the agent's experience pursuing higher returns (the Prize). Our key insight is that return differences reveal what matters most: If two similar representations produce different outcomes, their distinguishing features are likely task-relevant, and the gaze should focus on them accordingly. This is realized through return-guided contrastive learning that trains the attention to distinguish between the features relevant to success and failure. We group similar visual representations into positives and negatives based on their return differences and use the resulting labels to construct contrastive triplets. These triplets provide the training signal that teaches the attention mechanism to produce distinguishable representations for states associated with different outcomes. Our method achieves up to 2.4x improvement in sample efficiency and can solve tasks that the baseline fails to learn, demonstrated across a suite of manipulation tasks from the ManiSkill3 benchmark, all without modifying the underlying algorithm or hyperparameters.
- Abstract(参考訳): 視覚強化学習(RL)エージェントは,少数のピクセルだけがタスク関連である高次元画像データに基づいて,行動を学ぶ必要がある。
これにより、エージェントは無関係な特徴に対する探索と計算資源を無駄にし、サンプル非効率で不安定な学習につながる。
人間の視覚的触覚に触発されたこの問題に対処するため,Gaz on the Prizeを紹介した。
この枠組みは、学習可能な焦点注意機構(Gaze)で視覚的RLを増強し、より高いリターンを追求するエージェントの経験から導かれる自己教師信号によって導かれる(the Prize)。
2つの類似した表現が異なる結果を生み出す場合、それらの特徴がタスク関連性があり、それに従って目視がそれらに焦点を当てるべきである。
これは、成功と失敗に関連する特徴を区別するために注意を訓練する、リターン誘導のコントラスト学習を通じて実現される。
類似した視覚表現を、その逆差に基づいて正と負に分類し、結果のラベルを用いて、対照的な三重項を構成する。
これらの三重項は、異なる結果に関連する状態の区別可能な表現を生成するための注意機構を教える訓練信号を提供する。
提案手法はサンプル効率の最大2.4倍の改善を実現し,基礎となるアルゴリズムやハイパーパラメータを変更することなく,ManiSkill3ベンチマークから一連の操作タスクにまたがって,ベースラインが学習できないタスクを解くことができる。
関連論文リスト
- Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Combining Reconstruction and Contrastive Methods for Multimodal Representations in RL [16.792949555151978]
再構成や対照的な損失を用いた自己教師型表現の学習は、画像ベース・マルチモーダル強化学習(RL)の性能とサンプルの複雑さを向上させる
ここでは、異なる自己教師付き損失関数は、基礎となるセンサのモジュラリティの情報密度によって異なる利点と制限を有する。
コントラスト的再構成集約表現学習(CoRAL)を提案する。このフレームワークは,各センサのモダリティに対して,最も適切な自己管理的損失を選択することができる。
論文 参考訳(メタデータ) (2023-02-10T15:57:20Z) - Exploring the Equivalence of Siamese Self-Supervised Learning via A
Unified Gradient Framework [43.76337849044254]
自己教師付き学習は、人間のアノテーションなしで強力な視覚表現を抽出する大きな可能性を示している。
様々な視点から自己指導型学習を扱うために,様々な研究が提案されている。
自己教師型学習のための単純だが効果的な勾配形式UniGradを提案する。
論文 参考訳(メタデータ) (2021-12-09T18:59:57Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - Efficiently Guiding Imitation Learning Agents with Human Gaze [28.7222865388462]
我々は,3つの模擬学習手法を用いて訓練されたエージェントの性能を高めるために,人間のデモ隊の視線手がかりを使用する。
強化学習エージェントの注意とヒトの視線との類似性に基づいて, 視線データを計算的に効率的に活用するための新しいアプローチを提案する。
提案手法は,BCでは95%,BCOでは343%,T-REXでは390%,Atariゲームでは平均20以上のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-28T00:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。