Fugu-MT 論文翻訳(概要): UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model

論文の概要: UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model

arxiv url: http://arxiv.org/abs/2305.12659v1
Date: Mon, 22 May 2023 03:03:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 18:58:06.582181
Title: UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model
Title（参考訳）: UVOSAM:Segment Anything Modelによる教師なしビデオオブジェクトセグメンテーションのためのマスクフリーパラダイム
Authors: Zhenghao Zhang and Zhichao Wei and Shengfan Zhang and Zuozhuo Dai and Siyu Zhu
Abstract要約: Segment Anything Model (SAM)は、画像セグメンテーションのための新しいプロンプト駆動パラダイムを導入し、これまで探索されていなかったさまざまな機能をアンロックした。ビデオマスクラベルを必要とせずに、SAMを教師なしビデオオブジェクトセグメンテーションに活用するUVOSAMという新しいパラダイムを提案する。実験の結果,UVOSAMは現在のマスク管理法よりも有意に優れていた。
参考スコア（独自算出の注目度）: 11.511573705519686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Unsupervised video object segmentation has made significant progress in recent years, but the manual annotation of video mask datasets is expensive and limits the diversity of available datasets. The Segment Anything Model (SAM) has introduced a new prompt-driven paradigm for image segmentation, unlocking a range of previously unexplored capabilities. In this paper, we propose a novel paradigm called UVOSAM, which leverages SAM for unsupervised video object segmentation without requiring video mask labels. To address SAM's limitations in instance discovery and identity association, we introduce a video salient object tracking network that automatically generates trajectories for prominent foreground objects. These trajectories then serve as prompts for SAM to produce video masks on a frame-by-frame basis. Our experimental results demonstrate that UVOSAM significantly outperforms current mask-supervised methods. These findings suggest that UVOSAM has the potential to improve unsupervised video object segmentation and reduce the cost of manual annotation.
Abstract（参考訳）: 教師なしのビデオオブジェクトセグメンテーションは近年大きく進歩しているが、ビデオマスクデータセットの手動アノテーションは高価であり、利用可能なデータセットの多様性を制限している。 Segment Anything Model (SAM)は、画像セグメンテーションのための新しいプロンプト駆動パラダイムを導入し、これまで探索されていなかったさまざまな機能をアンロックした。本稿では,ビデオマスクラベルを必要とせず,SAMを教師なし映像オブジェクトのセグメンテーションに活用するUVOSAMという新しいパラダイムを提案する。 SAMのインスタンス発見・識別関連における限界に対処するため,前景オブジェクトの軌跡を自動的に生成するビデオ有向物体追跡ネットワークを導入する。これらの軌道はSAMがフレーム単位でビデオマスクを作成するためのプロンプトとして機能する。実験の結果,UVOSAMは現在のマスク管理法よりも優れていた。これらの結果から, UVOSAMは教師なしビデオオブジェクトのセグメンテーションを改善し, 手動アノテーションのコストを低減できる可能性が示唆された。

関連論文リスト

Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。 SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文参考訳（メタデータ） (2025-06-28T13:30:36Z)
ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。 MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文参考訳（メタデータ） (2025-05-24T07:01:31Z)
AU-vMAE: Knowledge-Guide Action Units Detection via Video Masked Autoencoder [38.04963261966939]
顔行動単位(FAU)検出のためのビデオレベルの事前学習方式を提案する。我々の設計の中心は、ビデオマインドオートエンコーダに基づく事前訓練されたビデオ特徴抽出器である。提案手法は,BP4DおよびdisFA FAUsデータセットで使用されている既存の最先端手法と比較して,性能の大幅な向上を示す。
論文参考訳（メタデータ） (2024-07-16T08:07:47Z)
MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文参考訳（メタデータ） (2024-04-24T07:38:14Z)
SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in Videos by Prompt Denoising [37.216493829454706]
ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
論文参考訳（メタデータ） (2024-03-07T03:52:59Z)
Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文参考訳（メタデータ） (2023-11-29T18:47:17Z)
Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文参考訳（メタデータ） (2023-09-13T05:05:47Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文参考訳（メタデータ） (2022-12-15T02:44:13Z)
Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文参考訳（メタデータ） (2022-10-23T14:09:35Z)
Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文参考訳（メタデータ） (2021-01-06T18:56:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。