論文の概要: MomentSeg: Moment-Centric Sampling for Enhanced Video Pixel Understanding
- arxiv url: http://arxiv.org/abs/2510.09274v1
- Date: Fri, 10 Oct 2025 11:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.795633
- Title: MomentSeg: Moment-Centric Sampling for Enhanced Video Pixel Understanding
- Title(参考訳): MomentSeg: Moment-Centric Smpling for Enhanced Video Pixel Understanding
- Authors: Ming Dai, Sen Yang, Boqiang Duan, Wankou Yang, Jingdong Wang,
- Abstract要約: Referring Video Object (RefVOS)は、自然言語記述でガイドされたビデオにターゲットオブジェクトをセグメント化しようとする。
本稿では,時空間接地(TSG)とRefVOSを協調的に最適化し,キーモーメント接地機能を自然に組み込んだ統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.37010049965347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation (RefVOS) seeks to segment target objects in videos guided by natural language descriptions, demanding both temporal reasoning and fine-grained visual comprehension. Existing sampling strategies for LLM-based approaches typically rely on either handcrafted heuristics or external keyframe models. The former often overlooks essential temporal cues, while the latter increases system complexity. To address this, we propose a unified framework that jointly optimizes Temporal Sentence Grounding (TSG) and RefVOS, naturally incorporating key moment grounding capability. During training, we introduce a novel TSG paradigm that employs a dedicated \texttt{[FIND]} token for key moment identification through temporal token similarity matching, thereby avoiding the need for external timestamp encodings. For inference, we design a Moment-Centric Sampling (MCS) strategy that densely samples informative moments while sparsely sampling non-essential frames, preserving both motion details and global context. To further enhance tracking stability, we develop Bidirectional Anchor-updated Propagation (BAP), which leverages the most relevant moment as start point for high-quality mask initialization and dynamically updates at sampled points to mitigate accumulated errors. Code and model will be available at: https://github.com/Dmmm1997/MomentSeg
- Abstract(参考訳): Referring Video Object Segmentation (RefVOS)は、時間的推論ときめ細かい視覚的理解の両方を要求する自然言語記述でガイドされたビデオにターゲットオブジェクトを分割することを目指している。
LLMベースのアプローチの既存のサンプリング戦略は、通常手作りのヒューリスティックまたは外部キーフレームモデルに依存する。
前者はしばしば重要な時間的手がかりを見落とし、後者はシステムの複雑さを増大させる。
そこで本稿では,時間的センテンスグラウンドリング(TSG)とRefVOSを協調的に最適化し,キーモーメントグラウンドディング機能を自然に組み込んだ統合フレームワークを提案する。
トレーニング中、時間的トークン類似性マッチングによりキーモーメント識別に専用の \texttt{[FIND]} トークンを使用する新しい TSG パラダイムを導入し、外部タイムスタンプエンコーディングの必要性を回避する。
推測のために,情報モーメント・中心サンプリング (MCS) 戦略を設計し,情報モーメントを高密度にサンプリングし,非意味なフレームをわずかにサンプリングし,動きの詳細とグローバルコンテキストの両方を保存する。
トラッキングの安定性をさらに向上するため,高品質マスクの初期化とサンプリング点の動的更新の開始点として最も関連性の高いモーメントを利用する双方向アンカー更新伝搬(BAP)を開発した。
コードとモデルは、https://github.com/Dmmm1997/MomentSegで利用可能になる。
関連論文リスト
- DATE: Dynamic Absolute Time Enhancement for Long Video Understanding [8.720269393713451]
長期ビデオ理解はマルチモーダル大言語モデル(MLLM)の根本的な課題であり続けている
MLLMにおける時間的意識を高める動的絶対時間拡張(DATE)を提案する。
本稿では,意味的関連性と時間的関連性の両方を保証するための2段階アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:49:22Z) - TAG: A Simple Yet Effective Temporal-Aware Approach for Zero-Shot Video Temporal Grounding [12.57589714067771]
Video Temporal Groundingは、与えられた自然言語クエリに基づいて、関連するビデオセグメントを抽出することを目的としている。
従来のアプローチでは、同じ意味論を共有する時間的に連続したフレームが複数のセグメントに分割されるセマンティックな断片化に悩まされていた。
本稿では、時間プーリング、時間的コヒーレンスクラスタリング、類似度調整を取り入れた、ゼロショットビデオ時間的グラウンディングのための、シンプルで効果的な時間的認識アプローチを提案する。
論文 参考訳(メタデータ) (2025-08-11T12:38:46Z) - Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding [18.027290155746112]
時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。
モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。
よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
論文 参考訳(メタデータ) (2025-06-28T15:24:05Z) - Moment Quantization for Video Temporal Grounding [29.081100914208974]
我々は、新しいモーメント量子化に基づくビデオ時間グラウンド法(MQVTG)を提案する。
MQVTGは入力ビデオを様々な離散ベクトルに量子化し、関連するモーメントと無関係なモーメントの識別を強化する。
本手法は,関係する特徴を効果的にグループ化し,無関係な特徴を分離し,差別の強化を目標とする。
論文 参考訳(メタデータ) (2025-04-03T05:21:14Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。