論文の概要: SegDAC: Segmentation-Driven Actor-Critic for Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.09325v1
- Date: Tue, 12 Aug 2025 20:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.684425
- Title: SegDAC: Segmentation-Driven Actor-Critic for Visual Reinforcement Learning
- Title(参考訳): SegDAC: 視覚強化学習のためのセグメンテーション駆動アクタクリティカル
- Authors: Alexandre Brown, Glen Berseth,
- Abstract要約: 視覚一般化のためのRL-Driven Actor-Critic法であるSegDACを提案する。
SegDACはオブジェクト中心の分解にSegment Anything(SAM)を使用し、YOLO-Worldはテキストプロンプトを通じてセグメンテーションを意味的にグラウンドする。
Maniskill3を用いた視覚一般化ベンチマークでSegDACを評価することにより,SegDACが視覚一般化を著しく向上することを示す。
- 参考スコア(独自算出の注目度): 56.73588655252369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reinforcement learning (RL) is challenging due to the need to learn both perception and actions from high-dimensional inputs and noisy rewards. Although large perception models exist, integrating them effectively into RL for visual generalization and improved sample efficiency remains unclear. We propose SegDAC, a Segmentation-Driven Actor-Critic method. SegDAC uses Segment Anything (SAM) for object-centric decomposition and YOLO-World to ground segments semantically via text prompts. It includes a novel transformer-based architecture that supports a dynamic number of segments at each time step and effectively learns which segments to focus on using online RL, without using human labels. By evaluating SegDAC over a challenging visual generalization benchmark using Maniskill3, which covers diverse manipulation tasks under strong visual perturbations, we demonstrate that SegDAC achieves significantly better visual generalization, doubling prior performance on the hardest setting and matching or surpassing prior methods in sample efficiency across all evaluated tasks.
- Abstract(参考訳): 視覚強化学習(RL)は,高次元インプットとノイズ報酬から知覚と行動の両方を学ぶ必要があるため,困難である。
大きな知覚モデルが存在するが、それらを視覚的一般化とサンプル効率の改善のためにRLに効果的に統合することは、まだ不明である。
本稿では,セグメンテーション駆動アクタクリティカル法であるSegDACを提案する。
SegDACはオブジェクト中心の分解にSegment Anything(SAM)を使用し、YOLO-Worldはテキストプロンプトを通じてセグメンテーションを意味的にグラウンドする。
トランスフォーマーベースのアーキテクチャは、各ステップで動的なセグメント数をサポートし、人間のラベルを使わずに、オンラインRLの使用に集中すべきセグメントを効果的に学習する。
Maniskill3を用いてSegDACを評価することで、SegDACはより優れた視覚的一般化を実現し、最も難しい設定での事前性能を倍増し、全ての評価されたタスクのサンプル効率において、事前メソッドをマッチングまたは超過することを示す。
関連論文リスト
- CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation [8.46894039954642]
対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。
また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-09T07:59:42Z) - SegMatch: A semi-supervised learning method for surgical instrument segmentation [11.72367272074871]
腹腔鏡およびロボット手術画像に対する高価なアノテーションの必要性を低減するための半教師付き学習手法であるSegMatchを提案する。
SegMatchは、一貫性の正規化と擬似ラベリングを組み合わせた、広範な半教師付き分類パイプラインであるFixMatch上に構築されている。
以上の結果から,SegMatchは非競合データを組み込むことで,完全教師付きアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-09T21:30:18Z) - Multi-level Contrast Network for Wearables-based Joint Activity
Segmentation and Recognition [10.828099015828693]
ウェアラブルを用いたヒューマンアクティビティ認識(HAR)は、多くのスマートヘルスケアアプリケーションで広く採用可能な、有望な研究である。
ほとんどのHARアルゴリズムは、必要不可欠なが滅多に悪用されないマルチクラスウィンドウ問題の影響を受けやすい。
我々は,HARにセグメンテーション技術を導入し,共同活動セグメンテーションと認識を実現した。
論文 参考訳(メタデータ) (2022-08-16T05:39:02Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。