論文の概要: Generalizable Visual Reinforcement Learning with Segment Anything Model
- arxiv url: http://arxiv.org/abs/2312.17116v1
- Date: Thu, 28 Dec 2023 16:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:36:36.503986
- Title: Generalizable Visual Reinforcement Learning with Segment Anything Model
- Title(参考訳): セグメンテーションモデルによる一般化可能な視覚強化学習
- Authors: Ziyu Wang, Yanjie Ze, Yifei Sun, Zhecheng Yuan, Huazhe Xu
- Abstract要約: 一般化可能なビジュアルRL(SAM-G)のためのセグメンテーションモデルを提案する。
SAM-Gは、Segment Anything Model(SAM)の迅速なセグメンテーション能力を利用して、視覚的RLエージェントの一般化能力を向上する新しいフレームワークである。
8つのDMControlタスクと3つのAdroitタスクで評価され、SAM-GはRLエージェントのアーキテクチャを変更することなく、観察だけをすることなく、視覚的一般化能力を大幅に改善する。
- 参考スコア(独自算出の注目度): 28.172477166023697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning policies that can generalize to unseen environments is a fundamental
challenge in visual reinforcement learning (RL). While most current methods
focus on acquiring robust visual representations through auxiliary supervision,
pre-training, or data augmentation, the potential of modern vision foundation
models remains underleveraged. In this work, we introduce Segment Anything
Model for Generalizable visual RL (SAM-G), a novel framework that leverages the
promptable segmentation ability of Segment Anything Model (SAM) to enhance the
generalization capabilities of visual RL agents. We utilize image features from
DINOv2 and SAM to find correspondence as point prompts to SAM, and then SAM
produces high-quality masked images for agents directly. Evaluated across 8
DMControl tasks and 3 Adroit tasks, SAM-G significantly improves the visual
generalization ability without altering the RL agents' architecture but merely
their observations. Notably, SAM-G achieves 44% and 29% relative improvements
on the challenging video hard setting on DMControl and Adroit respectively,
compared to state-of-the-art methods. Video and code:
https://yanjieze.com/SAM-G/
- Abstract(参考訳): 見えない環境に一般化できる学習政策は、視覚強化学習(RL)における根本的な課題である。
現在のほとんどの手法は補助的な監督、事前訓練、データ拡張による堅牢な視覚的表現の獲得に重点を置いているが、現代のビジョン基盤モデルの可能性は低いままである。
本稿では,Segment Anything Model for Generalizable Visual RL (SAM-G)を紹介する。これは,Segment Anything Model (SAM)の迅速なセグメンテーション能力を利用して視覚的RLエージェントの一般化能力を向上する新しいフレームワークである。
我々は,DINOv2 と SAM の画像特徴を利用して SAM へのポイントプロンプトとして対応し,SAM はエージェントに対して,高品質なマスク付き画像を直接生成する。
8つのDMControlタスクと3つのAdroitタスクで評価され、SAM-GはRLエージェントのアーキテクチャを変更することなく視覚一般化能力を著しく改善する。
特にSAM-Gは、DMControlとAdroitの挑戦的なビデオハードセットに対して、最先端の手法と比較して44%と29%の相対的な改善を実現している。
ビデオとコード:https://yanjieze.com/SAM-G/
関連論文リスト
- Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - Deep Instruction Tuning for Segment Anything Model [68.7934961590075]
Segment Anything Model (SAM) はマルチメディアとコンピュータビジョンの分野で研究ホットスポットとなっている。
SAMは、異なるタイプのセグメンテーションプロンプトをサポートすることができるが、テキストで指示されたタスクでは、はるかに悪化する。
SAMのための2つの簡易かつ効果的なディープ・インストラクション・チューニング(DIT)手法を提案し,その1つはエンドツーエンドであり、もう1つはレイヤワイズである。
論文 参考訳(メタデータ) (2024-03-31T11:37:43Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) [8.529233820032678]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。
本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。
我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文 参考訳(メタデータ) (2023-11-14T11:05:08Z) - Adapting Segment Anything Model for Change Detection in HR Remote
Sensing Images [18.371087310792287]
本研究は、高解像度リモートセンシング画像(RSI)の変化検出を改善するために、ビジョンファウンデーションモデル(VFM)の強力な視覚認識機能を活用することを目的とする。
我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。
SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。
その結果, SAMCDはSOTA法よりも精度が高く, セミに匹敵するサンプル効率の学習能力を示す。
論文 参考訳(メタデータ) (2023-09-04T08:23:31Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - A Comprehensive Survey on Segment Anything Model for Vision and Beyond [7.920790211915402]
幅広いデータに基づいて訓練された基礎モデルと呼ばれる、一般的なモデルのクラスを設計することは緊急である。
最近提案されたセグメンテーションモデル(SAM)は、セグメンテーションの境界を破る大きな進歩を遂げた。
本稿では,SAMを含む基礎モデルの背景と用語,およびSAMと同種の最先端手法について紹介する。
論文 参考訳(メタデータ) (2023-05-14T16:23:22Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。