論文の概要: IntentVCNet: Bridging Spatio-Temporal Gaps for Intention-Oriented Controllable Video Captioning
- arxiv url: http://arxiv.org/abs/2507.18531v1
- Date: Thu, 24 Jul 2025 15:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.013783
- Title: IntentVCNet: Bridging Spatio-Temporal Gaps for Intention-Oriented Controllable Video Captioning
- Title(参考訳): IntentVCNet: Intention-Oriented Controllable Video Captioningのための時空間ギャップのブリッジ
- Authors: Tianheng Qiu, Jingchun Gao, Jingyu Li, Huiyi Leong, Xuan Huang, Xi Wang, Xiaocheng Zhang, Kele Xu, Lan Zhang,
- Abstract要約: 制御されたビデオキャプションは、カスタマイズされたユーザ意図に基づいて、ビデオ内の特定のターゲットに対するターゲット記述を生成することを目的としている。
現在のLVLM(Large Visual Language Models)は、強力な命令と視覚的理解能力を持つ。
本稿では,LVLMに固有の時間的・空間的理解を統一する新しいIntentVCNetを提案する。
- 参考スコア(独自算出の注目度): 19.453632956169155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intent-oriented controlled video captioning aims to generate targeted descriptions for specific targets in a video based on customized user intent. Current Large Visual Language Models (LVLMs) have gained strong instruction following and visual comprehension capabilities. Although the LVLMs demonstrated proficiency in spatial and temporal understanding respectively, it was not able to perform fine-grained spatial control in time sequences in direct response to instructions. This substantial spatio-temporal gap complicates efforts to achieve fine-grained intention-oriented control in video. Towards this end, we propose a novel IntentVCNet that unifies the temporal and spatial understanding knowledge inherent in LVLMs to bridge the spatio-temporal gap from both prompting and model perspectives. Specifically, we first propose a prompt combination strategy designed to enable LLM to model the implicit relationship between prompts that characterize user intent and video sequences. We then propose a parameter efficient box adapter that augments the object semantic information in the global visual context so that the visual token has a priori information about the user intent. The final experiment proves that the combination of the two strategies can further enhance the LVLM's ability to model spatial details in video sequences, and facilitate the LVLMs to accurately generate controlled intent-oriented captions. Our proposed method achieved state-of-the-art results in several open source LVLMs and was the runner-up in the IntentVC challenge. Our code is available on https://github.com/thqiu0419/IntentVCNet.
- Abstract(参考訳): インテント指向の制御されたビデオキャプションは、カスタマイズされたユーザ意図に基づいて、ビデオ内の特定のターゲットに対するターゲット記述を生成することを目的としている。
現在のLVLM(Large Visual Language Models)は、強い指示と視覚的理解能力を持つ。
LVLMは,それぞれ空間的および時間的理解に習熟性を示したが,指示に対する直接応答において,時間列におけるきめ細かい空間制御を行うことはできなかった。
この空間的ギャップは、ビデオにおける微妙な意図指向制御を達成するための努力を複雑にしている。
そこで本研究では,LVLMに固有の時間的・空間的理解知識を統合化して,プロンプトとモデルの両方の観点から時空間ギャップを埋める新しいIntentVCNetを提案する。
具体的には、まず、ユーザ意図とビデオシーケンスを特徴付けるプロンプト間の暗黙の関係をLLMがモデル化できるように設計されたプロンプトの組み合わせ戦略を提案する。
次に,グローバルな視覚的コンテキストにおけるオブジェクトの意味情報を拡張し,視覚的トークンがユーザ意図に関する優先順位情報を持つように,パラメータ効率の良いボックスアダプタを提案する。
最後の実験は、この2つの戦略を組み合わせることで、LVLMがビデオシーケンスの空間的詳細をモデル化し、LVLMが制御された意図指向のキャプションを正確に生成できることを証明した。
提案手法は,いくつかのオープンソースLVLMにおいて最先端の成果を達成し,IntentVCチャレンジの勝者となった。
私たちのコードはhttps://github.com/thqiu0419/IntentVCNetで利用可能です。
関連論文リスト
- OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment [5.215417164787923]
視覚言語モデル(VLM)は、オープン語彙の視覚的関係の検出に役立つが、多くの場合、様々な視覚領域とそれらの関係との関係を見落としている。
本稿では,オープン語彙のVidVRDフレームワークであるOpenVidVRDを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:13:17Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - Zero-shot Action Localization via the Confidence of Large Vision-Language Models [19.683461002518147]
我々はZEAL(Zero-shot Action Localization Method)を導入する。
具体的には、大規模言語モデル(LLM)の組み込みアクション知識を活用して、アクションを詳細に記述する。
我々は、訓練をせずに、挑戦的なベンチマークでゼロショットアクションローカライゼーションの顕著な結果を示す。
論文 参考訳(メタデータ) (2024-10-18T09:51:14Z) - Open-Vocabulary Action Localization with Iterative Visual Prompting [8.07285448283823]
ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。
本稿では,新たな視覚言語モデル(VLM)に基づく学習自由でオープンな投票手法を提案する。
我々は、アクションの開始と終了に対応する可能性が高いフレームを特定するために、反復的な視覚的プロンプト技術を拡張する。
論文 参考訳(メタデータ) (2024-08-30T17:12:14Z) - IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model [52.697180472760635]
本稿では,複数の視覚シナリオにまたがるキャラクタ・アイデンティティ・メモリと認識の可能性について検討する。
我々は,ID参照を用いた視覚的指導チューニングを提案し,ID対応大規模視覚言語モデル IDA-VLM を開発した。
本研究は,4次元にわたるインスタンスIDのメモリと認識におけるLVLMの検証を行うための,新しいベンチマークMM-IDを提案する。
論文 参考訳(メタデータ) (2024-07-10T12:11:59Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。