論文の概要: MaskCaptioner : Learning to Jointly Segment and Caption Object Trajectories in Videos
- arxiv url: http://arxiv.org/abs/2510.14904v1
- Date: Thu, 16 Oct 2025 17:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.972225
- Title: MaskCaptioner : Learning to Jointly Segment and Caption Object Trajectories in Videos
- Title(参考訳): Mask Captioner : ビデオにおける協調的なセグメンテーションとキャプションオブジェクトの軌跡の学習
- Authors: Gabriel Fiastre, Antoine Yang, Cordelia Schmid,
- Abstract要約: MaskCapは、オブジェクトの軌跡を共同で検出、セグメント化、追跡、キャプションできるエンドツーエンドモデルである。
データセットとコードはhttps://www.gabriel.fiastre.fr/masker/で公開されている。
- 参考スコア(独自算出の注目度): 53.837485338819334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dense Video Object Captioning (DVOC) is the task of jointly detecting, tracking, and captioning object trajectories in a video, requiring the ability to understand spatio-temporal details and describe them in natural language. Due to the complexity of the task and the high cost associated with manual annotation, previous approaches resort to disjoint training strategies, potentially leading to suboptimal performance. To circumvent this issue, we propose to generate captions about spatio-temporally localized entities leveraging a state-of-the-art VLM. By extending the LVIS and LV-VIS datasets with our synthetic captions (LVISCap and LV-VISCap), we train MaskCaptioner, an end-to-end model capable of jointly detecting, segmenting, tracking and captioning object trajectories. Moreover, with pretraining on LVISCap and LV-VISCap, MaskCaptioner achieves state-of-the-art DVOC results on three existing benchmarks, VidSTG, VLN and BenSMOT. The datasets and code are available at https://www.gabriel.fiastre.fr/maskcaptioner/.
- Abstract(参考訳): Dense Video Object Captioning (DVOC)は、ビデオ内のオブジェクトの軌跡を共同で検出、追跡、キャプションするタスクであり、時空間の詳細を理解し、それらを自然言語で記述する能力を必要とする。
タスクの複雑さと手動のアノテーションに関連する高コストのため、以前のアプローチでは非結合的なトレーニング戦略を採用しており、潜在的に最適以下のパフォーマンスをもたらす可能性がある。
この問題を回避するために,我々は,最先端のVLMを活用した時空間化エンティティのキャプションを生成することを提案する。
LVISとLV-VISデータセットを合成キャプション(LVISCapとLV-VISCap)で拡張することにより、オブジェクトの軌跡を共同で検出、セグメンティング、追跡、キャプションできるエンドツーエンドモデルであるMaskCaptionerを訓練する。
さらに、LVISCapとLV-VISCapの事前トレーニングにより、MaskCaptionerは既存の3つのベンチマーク(VidSTG、VLN、BenSMOT)で最先端のDVOC結果を達成する。
データセットとコードはhttps://www.gabriel.fiastre.fr/maskcaptioner/で公開されている。
関連論文リスト
- VoCap: Video Object Captioning and Segmentation from Any Prompt [78.90048335805047]
VoCapは、ビデオセグメンテーションと様々なモダリティの迅速な理解を消費するフレキシブルモデルである。
プロンプト可能なビデオオブジェクトのセグメンテーション、参照、オブジェクトキャプションに対処する。
本モデルでは,表現対象のセグメンテーションについて,最新の結果が得られる。
論文 参考訳(メタデータ) (2025-08-29T17:43:58Z) - Controllable Hybrid Captioner for Improved Long-form Video Understanding [1.2035789357951119]
ビデオデータは極めて密度が高く、高次元である。
テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。
静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文 参考訳(メタデータ) (2025-07-22T22:09:00Z) - Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。
Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。
我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文 参考訳(メタデータ) (2025-04-07T22:35:36Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。