論文の概要: Controllable Hybrid Captioner for Improved Long-form Video Understanding
- arxiv url: http://arxiv.org/abs/2507.17047v1
- Date: Tue, 22 Jul 2025 22:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.788763
- Title: Controllable Hybrid Captioner for Improved Long-form Video Understanding
- Title(参考訳): 長大映像理解のための制御可能なハイブリッドキャピタ
- Authors: Kuleen Sasse, Efsun Sarioglu Kayi, Arun Reddy,
- Abstract要約: ビデオデータは極めて密度が高く、高次元である。
テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。
静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
- 参考スコア(独自算出の注目度): 0.24578723416255746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video data, especially long-form video, is extremely dense and high-dimensional. Text-based summaries of video content offer a way to represent query-relevant content in a much more compact manner than raw video. In addition, textual representations are easily ingested by state-of-the-art large language models (LLMs), which enable reasoning over video content to answer complex natural language queries. To solve this issue, we rely on the progressive construction of a text-based memory by a video captioner operating on shorter chunks of the video, where spatio-temporal modeling is computationally feasible. We explore ways to improve the quality of the activity log comprised solely of short video captions. Because the video captions tend to be focused on human actions, and questions may pertain to other information in the scene, we seek to enrich the memory with static scene descriptions using Vision Language Models (VLMs). Our video understanding system relies on the LaViLa video captioner in combination with a LLM to answer questions about videos. We first explored different ways of partitioning the video into meaningful segments such that the textual descriptions more accurately reflect the structure of the video content. Furthermore, we incorporated static scene descriptions into the captioning pipeline using LLaVA VLM, resulting in a more detailed and complete caption log and expanding the space of questions that are answerable from the textual memory. Finally, we have successfully fine-tuned the LaViLa video captioner to produce both action and scene captions, significantly improving the efficiency of the captioning pipeline compared to using separate captioning models for the two tasks. Our model, controllable hybrid captioner, can alternate between different types of captions according to special input tokens that signals scene changes detected in the video.
- Abstract(参考訳): ビデオデータ、特にロングフォームビデオは、非常に密度が高く、高次元である。
ビデオコンテンツのテキストベースの要約は、クエリ関連コンテンツを生のビデオよりもはるかにコンパクトに表現する方法を提供する。
さらに、テキスト表現は最先端の大規模言語モデル(LLM)によって容易に取り込み、ビデオコンテンツの推論によって複雑な自然言語クエリに答えることができる。
この問題を解決するために,ビデオの短いチャンクで動作するビデオキャプタによるテキストベースメモリのプログレッシブな構築に頼る。
短いビデオキャプションのみからなるアクティビティログの質を向上させる方法について検討する。
映像キャプションは人間の行動に焦点をあてる傾向があり、シーン内の他の情報に関係している可能性があるため、視覚言語モデル(VLM)を用いた静的なシーン記述で記憶を充実させようとする。
我々のビデオ理解システムは、ビデオに関する質問に答えるために、LLMと組み合わせてLaViLaビデオキャプタに依存しています。
まず,テキスト記述が映像コンテンツの構造をより正確に反映するように,動画を意味のあるセグメントに分割する方法について検討した。
さらに,LLaVA VLMを用いて静的なシーン記述をキャプションパイプラインに組み込んだ結果,より詳細で完全なキャプションログが得られた。
最後に、LaViLaビデオキャプタを微調整し、アクションキャプタとシーンキャプタの両方を生成することに成功した。
我々のモデルである制御可能なハイブリッドキャプタは、ビデオで検出されたシーン変化を通知する特別な入力トークンに従って、異なるタイプのキャプションを切り替えることができる。
関連論文リスト
- Toward Scalable Video Narration: A Training-free Approach Using Multimodal Large Language Models [10.585096070697348]
本稿では,ビデオキャプションを高密度に生成する新しいトレーニングフリーパイプラインであるVideoNarratorを紹介する。
VideoNarratorは、既製のMLLMとビジュアル言語モデルがキャプションジェネレータとして機能する柔軟なパイプラインを活用することで、課題に対処する。
実験の結果,これらの成分の相乗的相互作用はビデオナレーションの品質と精度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-22T22:16:37Z) - The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - Fine-Grained Captioning of Long Videos through Scene Graph Consolidation [44.30028794237688]
グラフ統合に基づく長大なビデオキャプションのための新しいフレームワークを提案する。
提案手法はまず,個々のフレームや短いビデオ間隔に対応するセグメントレベルのキャプションを生成する。
軽量なグラフからテキストへのデコーダが最後にビデオレベルのキャプションを生成する。
論文 参考訳(メタデータ) (2025-02-23T03:59:05Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。
我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文 参考訳(メタデータ) (2020-07-29T08:58:52Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。