論文の概要: Scene Graph-guided SegCaptioning Transformer with Fine-grained Alignment for Controllable Video Segmentation and Captioning
- arxiv url: http://arxiv.org/abs/2603.20887v1
- Date: Sat, 21 Mar 2026 17:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.135107
- Title: Scene Graph-guided SegCaptioning Transformer with Fine-grained Alignment for Controllable Video Segmentation and Captioning
- Title(参考訳): 制御可能なビデオセグメンテーション・キャプションのための微粒配向を有するシーングラフ誘導セグキャプション変換器
- Authors: Xu Zhang, Jin Yuan, BinHong Yang, Xuan Liu, Qianjun Zhang, Yuyi Wang, Zhiyong Li, Hanwang Zhang,
- Abstract要約: SegCaptioningは、ユーザ意図に基づいて相関マスクとキャプションを生成する新しいツールである。
革新的なフレームワークは、Prompt-guided Temporal Graph formerときめ細かいマスク言語デコーダを統合している。
提案モデルでは,ユーザの意図を効果的に把握し,ユーザ仕様に合わせて正確なマルチモーダル出力を生成する。
- 参考スコア(独自算出の注目度): 47.59654620860484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal large models have significantly bridged the representation gap between diverse modalities, catalyzing the evolution of video multimodal interpretation, which enhances users' understanding of video content by generating correlated modalities. However, most existing video multimodal interpretation methods primarily concentrate on global comprehension with limited user interaction. To address this, we propose a novel task, Controllable Video Segmentation and Captioning (SegCaptioning), which empowers users to provide specific prompts, such as a bounding box around an object of interest, to simultaneously generate correlated masks and captions that precisely embody user intent. An innovative framework Scene Graph-guided Fine-grained SegCaptioning Transformer (SG-FSCFormer) is designed that integrates a Prompt-guided Temporal Graph Former to effectively captures and represents user intent through an adaptive prompt adaptor, ensuring that the generated content well aligns with the user's requirements. Furthermore, our model introduces a Fine-grained Mask-linguistic Decoder to collaboratively predict high-quality caption-mask pairs using a Multi-entity Contrastive loss, as well as provide fine-grained alignment between each mask and its corresponding caption tokens, thereby enhancing users' comprehension of videos. Comprehensive experiments conducted on two benchmark datasets demonstrate that SG-FSCFormer achieves remarkable performance, effectively capturing user intent and generating precise multimodal outputs tailored to user specifications. Our code is available at https://github.com/XuZhang1211/SG-FSCFormer.
- Abstract(参考訳): 近年のマルチモーダル大モデルの進歩は、ビデオ多モーダル解釈の進化を触媒として、多様なモーダル間の表現ギャップを著しく橋渡しし、相関モーダルを生成することで、ビデオコンテンツの理解を深めている。
しかし,既存のビデオマルチモーダル解釈手法のほとんどは,ユーザインタラクションに制限のあるグローバル理解に重点を置いている。
そこで本研究では,ユーザが興味の対象の周囲に有界ボックスなどの特定のプロンプトを提供することで,ユーザの意図を正確に表現したマスクやキャプションを同時に生成する,制御可能なビデオセグメンテーション・キャプション(セグキャプション)を提案する。
革新的なフレームワーク Scene Graph-guided Fine-fine SegCaptioning Transformer (SG-FSCFormer) は、Prompt-guided Temporal Graph formerを統合して、適応的なプロンプトアダプタを通じてユーザの意図を効果的にキャプチャし、表現し、生成されたコンテンツがユーザの要求によく適合するように設計されている。
さらに,マルチエンタリティ・コントラッシブ・ロスを用いて高品質なキャプション・マスクペアを協調的に予測し,各マスクとその対応するキャプション・トークン間の微粒なアライメントを提供することにより,ユーザのビデオの理解を深める。
2つのベンチマークデータセットで実施された総合的な実験により、SG-FSCFormerは、ユーザの意図を効果的に捉え、ユーザ仕様に合わせて正確なマルチモーダルアウトプットを生成することで、優れたパフォーマンスを実現していることが示された。
私たちのコードはhttps://github.com/XuZhang1211/SG-FSCFormerで利用可能です。
関連論文リスト
- SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning [53.638998508418545]
本稿では,画像の協調とキャプション'(セグキャプション)を新たに導入する。
SegCaptioningは、オブジェクトを囲むバウンディングボックスのような直接的なプロンプトを、(カプセル、マスク)ペアで表されるさまざまな意味解釈に変換することを目的としている。
このタスクは、ユーザの意図を最小限のプロンプトから正確に把握し、同時に複数の意味的に整列したキャプションワードとマスクを予測するなど、大きな課題を生じさせる。
論文 参考訳(メタデータ) (2025-12-01T18:33:04Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。