Fugu-MT 論文翻訳(概要): Training-Free Spatio-temporal Decoupled Reasoning Video Segmentation with Adaptive Object Memory

論文の概要: Training-Free Spatio-temporal Decoupled Reasoning Video Segmentation with Adaptive Object Memory

arxiv url: http://arxiv.org/abs/2603.01545v1
Date: Mon, 02 Mar 2026 07:15:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.731887
Title: Training-Free Spatio-temporal Decoupled Reasoning Video Segmentation with Adaptive Object Memory
Title（参考訳）: 適応的オブジェクトメモリを用いた時間空間分離型ビデオセグメンテーションの訓練
Authors: Zhengtong Zhu, Jiaqing Fan, Zhixuan Liu, Fanzhang Li,
Abstract要約: Reasoning Video Object (VOS) は、ビデオシーケンス間で安定したオブジェクトセグメンテーションを必要とする難しいタスクである。従来のマルチモーダル大規模言語モデル(MLLM)を微調整してセグメンテーション出力を生成する手法は、かなりのリソースを必要とする。トレーニングフリーのtextbfStemporal textbfDecoupled Reasoning Video with textbfAdaptive Object bfMemory (SDAM) を提案する。提案手法は,Ref-YouTubeVOS,RefDAVIS17,MeViViS,ReasonVOS,Ref-YouTubeVOS,RefDAVIS17,ReasonVOSの5つのベンチマークデータセットに対して優れた結果を得る。
参考スコア（独自算出の注目度）: 10.183518059286124
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning Video Object Segmentation (ReasonVOS) is a challenging task that requires stable object segmentation across video sequences using implicit and complex textual inputs. Previous methods fine-tune Multimodal Large Language Models (MLLMs) to produce segmentation outputs, which demand substantial resources. Additionally, some existing methods are coupled in the processing of spatio-temporal information, which affects the temporal stability of the model to some extent. To address these issues, we propose Training-Free \textbf{S}patio-temporal \textbf{D}ecoupled Reasoning Video Segmentation with \textbf{A}daptive Object \textbf{M}emory (SDAM). We aim to design a training-free reasoning video segmentation framework that outperforms existing methods requiring fine-tuning, using only pre-trained models. Meanwhile, we propose an Adaptive Object Memory module that selects and memorizes key objects based on motion cues in different video sequences. Finally, we propose Spatio-temporal Decoupling for stable temporal propagation. In the spatial domain, we achieve precise localization and segmentation of target objects, while in the temporal domain, we leverage key object temporal information to drive stable cross-frame propagation. Our method achieves excellent results on five benchmark datasets, including Ref-YouTubeVOS, Ref-DAVIS17, MeViS, ReasonVOS, and ReVOS.
Abstract（参考訳）: Reasoning Video Object Segmentation (ReasonVOS)は、暗黙的および複雑なテキスト入力を使用して、ビデオシーケンス間で安定したオブジェクトセグメンテーションを必要とする難しいタスクである。従来のマルチモーダル大規模言語モデル(MLLM)を微調整してセグメンテーション出力を生成する手法は、かなりのリソースを必要とする。さらに, 時空間情報の処理に既存の手法が組み合わされ, ある程度の時間安定性に影響を及ぼす。これらの問題に対処するために、トレーニング自由な \textbf{S}patio-temporal \textbf{D}ecoupled Reasoning Video Segmentation with \textbf{A}daptive Object \textbf{M}emory (SDAM)を提案する。我々は,事前学習されたモデルのみを用いて,微調整を必要とする既存の手法より優れた訓練不要な推論ビデオセグメンテーションフレームワークを設計することを目指している。一方,動画シーケンスの異なる動きキューに基づいてキーオブジェクトを選択し,記憶するAdaptive Object Memoryモジュールを提案する。最後に、安定な時空間伝搬のための時空間デカップリングを提案する。空間領域では,対象対象物の正確な局所化とセグメンテーションを達成する一方,時間領域では,キーオブジェクトの時間情報を活用して安定なクロスフレーム伝搬を行う。提案手法は,Ref-YouTubeVOS,Ref-DAVIS17,MeViS,ReasonVOS,ReVOSの5つのベンチマークデータセットにおいて優れた結果が得られる。

関連論文リスト

Temporal Prompting Matters: Rethinking Referring Video Object Segmentation [64.82333675385802]
Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-08T17:59:57Z)
Temporal-Conditional Referring Video Object Segmentation with Noise-Free Text-to-Video Diffusion Model [4.848917027477984]
Referring Video Object (RVOS) は、ビデオ内の特定のオブジェクトをテキスト記述に従って分割することを目的としている。近年のRVOSアプローチは,特徴抽出や時間的モデリングに過度に重点を置いていることが多いが,セグメンテーションヘッドの設計は比較的無視されている。本稿では,境界セグメンテーション機能を高めるために既存のセグメンテーション手法を統合したテンポラルコンディショナル参照ビデオオブジェクトモデルを提案する。
論文参考訳（メタデータ） (2025-08-19T07:36:04Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文参考訳（メタデータ） (2024-06-08T14:25:57Z)
Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文参考訳（メタデータ） (2024-04-09T12:44:34Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2023-09-20T09:16:34Z)
SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文参考訳（メタデータ） (2021-01-21T20:06:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。