論文の概要: DVCFlow: Modeling Information Flow Towards Human-like Video Captioning
- arxiv url: http://arxiv.org/abs/2111.10146v1
- Date: Fri, 19 Nov 2021 10:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:02:16.953157
- Title: DVCFlow: Modeling Information Flow Towards Human-like Video Captioning
- Title(参考訳): DVCFlow:人間ライクなビデオキャプションに向けた情報フローのモデリング
- Authors: Xu Yan, Zhengcong Fei, Shuhui Wang, Qingming Huang, Qi Tian
- Abstract要約: 既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
- 参考スコア(独自算出の注目度): 163.71539565491113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense video captioning (DVC) aims to generate multi-sentence descriptions to
elucidate the multiple events in the video, which is challenging and demands
visual consistency, discoursal coherence, and linguistic diversity. Existing
methods mainly generate captions from individual video segments, lacking
adaptation to the global visual context and progressive alignment between the
fast-evolved visual content and textual descriptions, which results in
redundant and spliced descriptions. In this paper, we introduce the concept of
information flow to model the progressive information changing across video
sequence and captions. By designing a Cross-modal Information Flow Alignment
mechanism, the visual and textual information flows are captured and aligned,
which endows the captioning process with richer context and dynamics on
event/topic evolution. Based on the Cross-modal Information Flow Alignment
module, we further put forward DVCFlow framework, which consists of a
Global-local Visual Encoder to capture both global features and local features
for each video segment, and a pre-trained Caption Generator to produce
captions. Extensive experiments on the popular ActivityNet Captions and
YouCookII datasets demonstrate that our method significantly outperforms
competitive baselines, and generates more human-like text according to subject
and objective tests.
- Abstract(参考訳): 高密度ビデオキャプション(dvc)は、ビデオ内の複数のイベントを解明するために、マルチセンテンス記述を生成することを目的としている。
既存の方法は、主に個々のビデオセグメントからキャプションを生成し、グローバルな視覚的コンテキストへの適応や、高速に進化した視覚コンテンツとテキスト記述の間の進行的なアライメントに欠け、冗長でスプリケートな記述をもたらす。
本稿では,映像シーケンスやキャプション間で変化する進行情報をモデル化するための情報フローの概念を紹介する。
クロスモーダル情報フローアライメント機構を設計することで、視覚情報フローとテキスト情報フローをキャプチャしてアライメントし、より豊かなコンテキストとイベント/トピック進化のダイナミクスでキャプションプロセスを内包する。
クロスモーダル情報フローアライメントモジュールをベースとしたDVCFlowフレームワークは,各ビデオセグメントのグローバル機能とローカル機能の両方をキャプチャするグローバルローカルビジュアルエンコーダと,キャプションを生成するプリトレーニング済みキャプションジェネレータで構成されている。
人気の高いActivityNet CaptionsとYouCookIIデータセットの大規模な実験は、我々の手法が競争ベースラインを著しく上回り、主観的および客観的なテストに応じてより人間的なテキストを生成することを示した。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and
Multi-Head Decoding for Dense Video Captioning [46.69503728433432]
本稿では,符号化・復号化フレームワークに基づく意味支援型高密度ビデオキャプションモデルを提案する。
本手法は,評価中のYouMakeupデータセットの大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-06T10:56:53Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。