論文の概要: Temporal-Conditional Referring Video Object Segmentation with Noise-Free Text-to-Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2508.13584v1
- Date: Tue, 19 Aug 2025 07:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.831274
- Title: Temporal-Conditional Referring Video Object Segmentation with Noise-Free Text-to-Video Diffusion Model
- Title(参考訳): ノイズフリーテキスト-ビデオ拡散モデルによる時間制約参照ビデオオブジェクト分割
- Authors: Ruixin Zhang, Jiaqing Fan, Yifan Liao, Qian Qiao, Fanzhang Li,
- Abstract要約: Referring Video Object (RVOS) は、ビデオ内の特定のオブジェクトをテキスト記述に従って分割することを目的としている。
近年のRVOSアプローチは,特徴抽出や時間的モデリングに過度に重点を置いていることが多いが,セグメンテーションヘッドの設計は比較的無視されている。
本稿では,境界セグメンテーション機能を高めるために既存のセグメンテーション手法を統合したテンポラルコンディショナル参照ビデオオブジェクトモデルを提案する。
- 参考スコア(独自算出の注目度): 4.848917027477984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment specific objects in a video according to textual descriptions. We observe that recent RVOS approaches often place excessive emphasis on feature extraction and temporal modeling, while relatively neglecting the design of the segmentation head. In fact, there remains considerable room for improvement in segmentation head design. To address this, we propose a Temporal-Conditional Referring Video Object Segmentation model, which innovatively integrates existing segmentation methods to effectively enhance boundary segmentation capability. Furthermore, our model leverages a text-to-video diffusion model for feature extraction. On top of this, we remove the traditional noise prediction module to avoid the randomness of noise from degrading segmentation accuracy, thereby simplifying the model while improving performance. Finally, to overcome the limited feature extraction capability of the VAE, we design a Temporal Context Mask Refinement (TCMR) module, which significantly improves segmentation quality without introducing complex designs. We evaluate our method on four public RVOS benchmarks, where it consistently achieves state-of-the-art performance.
- Abstract(参考訳): Referring Video Object Segmentation (RVOS)は、ビデオ内の特定のオブジェクトをテキスト記述に従ってセグメントすることを目的としている。
近年のRVOSアプローチは,特徴抽出や時間的モデリングに過度に重点を置いていることが多いが,セグメンテーションヘッドの設計は比較的無視されている。
実際には、セグメンテーションヘッド設計を改善する余地が残っている。
そこで本稿では,既存のセグメンテーション手法を革新的に統合し,バウンダリセグメンテーション能力を効果的に向上する,時間制約参照ビデオオブジェクトセグメンテーションモデルを提案する。
さらに,本モデルでは特徴抽出にテキスト・ビデオ拡散モデルを用いる。
これに加えて,従来のノイズ予測モジュールを除去し,ノイズのランダムさをセグメント化精度の低下から回避し,性能を向上しながらモデルを簡素化する。
最後に, VAEの限られた特徴抽出能力を克服するため, 複雑な設計を導入することなく, セグメンテーション品質を大幅に向上させるTCMRモジュールを設計する。
提案手法を4つのパブリックRVOSベンチマークで評価し,最新性能を継続的に達成する。
関連論文リスト
- Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion [17.50161162624179]
自動運転車は意思決定に信頼性のあるセマンティックな環境認識に依存している。
本稿では,カメラのシーン形状とエゴモーションを自己教師付きで学習する構造化フィルタモデルMCDS-VSSを提案する。
我々のモデルは自動車シーンを、シーン幾何学、エゴモーション、オブジェクトモーションなどの複数の解釈可能な表現に解析する。
論文 参考訳(メタデータ) (2024-05-30T10:33:14Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Improving Semantic Segmentation through Spatio-Temporal Consistency
Learned from Videos [39.25927216187176]
我々は、深度、エゴモーション、カメラの内在性に関する教師なし学習を活用して、単一画像のセマンティックセマンティックセグメンテーションを改善する。
セグメンテーションモデルにさらなる監視信号を与えるために、予測深度、エゴモーション、カメラ内在性を用いている。
論文 参考訳(メタデータ) (2020-04-11T07:09:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。