論文の概要: SegDAC: Improving Visual Reinforcement Learning by Extracting Dynamic Objectc-Centric Representations from Pretrained Vision Models
- arxiv url: http://arxiv.org/abs/2508.09325v2
- Date: Fri, 17 Oct 2025 22:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.131294
- Title: SegDAC: Improving Visual Reinforcement Learning by Extracting Dynamic Objectc-Centric Representations from Pretrained Vision Models
- Title(参考訳): SegDAC:事前学習された視覚モデルから動的オブジェクト中心表現を抽出することで視覚強化学習を改善する
- Authors: Alexandre Brown, Glen Berseth,
- Abstract要約: SegDACは、視覚的強化学習のためのアクター駆動アクター・クリティカル法である。
人間のラベルを使わずに、オンラインRLを使うことに集中すべきセグメントを学習する。
視覚的一般化を著しく改善し、最も難しい設定での事前性能を倍増させ、サンプル効率で事前メソッドをマッチングまたは超越させる。
- 参考スコア(独自算出の注目度): 61.135869433338264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reinforcement learning (RL) is challenging due to the need to extract useful representations from high-dimensional inputs while learning effective control from sparse and noisy rewards. Although large perception models exist, integrating them effectively into RL for visual generalization and improved sample efficiency remains difficult. We propose SegDAC, a Segmentation-Driven Actor-Critic method. SegDAC uses Segment Anything (SAM) for object-centric decomposition and YOLO-World to ground the image segmentation process via text inputs. It includes a novel transformer-based architecture that supports a dynamic number of segments at each time step and effectively learns which segments to focus on using online RL, without using human labels. By evaluating SegDAC over a challenging visual generalization benchmark using Maniskill3, which covers diverse manipulation tasks under strong visual perturbations, we demonstrate that SegDAC achieves significantly better visual generalization, doubling prior performance on the hardest setting and matching or surpassing prior methods in sample efficiency across all evaluated tasks.
- Abstract(参考訳): 視覚強化学習(RL)は,高次元インプットから有用な表現を抽出し,スパースとノイズの報酬から効果的な制御を学習する必要性から困難である。
大きな知覚モデルが存在するが、それらを視覚的一般化やサンプル効率の向上のためにRLに効果的に統合することは依然として困難である。
本稿では,セグメンテーション駆動アクタクリティカル法であるSegDACを提案する。
SegDAC はオブジェクト中心の分解に Segment Anything (SAM) を使用し、YOLO-World はテキスト入力を通じてイメージセグメンテーションプロセスを構築する。
トランスフォーマーベースのアーキテクチャは、各ステップで動的なセグメント数をサポートし、人間のラベルを使わずに、オンラインRLの使用に集中すべきセグメントを効果的に学習する。
Maniskill3を用いてSegDACを評価することで、SegDACはより優れた視覚的一般化を実現し、最も難しい設定での事前性能を倍増し、全ての評価されたタスクのサンプル効率において、事前メソッドをマッチングまたは超過することを示す。
関連論文リスト
- CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation [8.46894039954642]
対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。
また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-09T07:59:42Z) - SegMatch: A semi-supervised learning method for surgical instrument segmentation [11.72367272074871]
腹腔鏡およびロボット手術画像に対する高価なアノテーションの必要性を低減するための半教師付き学習手法であるSegMatchを提案する。
SegMatchは、一貫性の正規化と擬似ラベリングを組み合わせた、広範な半教師付き分類パイプラインであるFixMatch上に構築されている。
以上の結果から,SegMatchは非競合データを組み込むことで,完全教師付きアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-09T21:30:18Z) - Multi-level Contrast Network for Wearables-based Joint Activity
Segmentation and Recognition [10.828099015828693]
ウェアラブルを用いたヒューマンアクティビティ認識(HAR)は、多くのスマートヘルスケアアプリケーションで広く採用可能な、有望な研究である。
ほとんどのHARアルゴリズムは、必要不可欠なが滅多に悪用されないマルチクラスウィンドウ問題の影響を受けやすい。
我々は,HARにセグメンテーション技術を導入し,共同活動セグメンテーションと認識を実現した。
論文 参考訳(メタデータ) (2022-08-16T05:39:02Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。