論文の概要: LGDN: Language-Guided Denoising Network for Video-Language Modeling
- arxiv url: http://arxiv.org/abs/2209.11388v1
- Date: Fri, 23 Sep 2022 03:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 13:43:47.995466
- Title: LGDN: Language-Guided Denoising Network for Video-Language Modeling
- Title(参考訳): LGDN:ビデオ言語モデリングのための言語ガイド型Denoising Network
- Authors: Haoyu Lu and Mingyu Ding and Nanyi Fei and Yuqi Huo and Zhiwu Lu
- Abstract要約: 本稿では,映像言語モデリングのための効率的かつ効率的な言語ガイド型認知ネットワーク(LGDN)を提案する。
我々のLGDNは、言語監督下で、不整合または冗長なフレームを動的にフィルタリングし、クロスモーダルトークンレベルのアライメントのために、1ビデオあたり2~4サラントフレームしか取得できない。
- 参考スコア(独自算出の注目度): 30.99646752913056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-language modeling has attracted much attention with the rapid growth of
web videos. Most existing methods assume that the video frames and text
description are semantically correlated, and focus on video-language modeling
at video level. However, this hypothesis often fails for two reasons: (1) With
the rich semantics of video contents, it is difficult to cover all frames with
a single video-level description; (2) A raw video typically has
noisy/meaningless information (e.g., scenery shot, transition or teaser).
Although a number of recent works deploy attention mechanism to alleviate this
problem, the irrelevant/noisy information still makes it very difficult to
address. To overcome such challenge, we thus propose an efficient and effective
model, termed Language-Guided Denoising Network (LGDN), for video-language
modeling. Different from most existing methods that utilize all extracted video
frames, LGDN dynamically filters out the misaligned or redundant frames under
the language supervision and obtains only 2--4 salient frames per video for
cross-modal token-level alignment. Extensive experiments on five public
datasets show that our LGDN outperforms the state-of-the-arts by large margins.
We also provide detailed ablation study to reveal the critical importance of
solving the noise issue, in hope of inspiring future video-language work.
- Abstract(参考訳): ビデオ言語モデリングは、webビデオの急速な成長で注目を集めている。
既存の手法のほとんどは、ビデオフレームとテキスト記述が意味的に相関していると仮定しており、ビデオレベルでの映像言語モデリングに焦点を当てている。
しかし、この仮説は、(1)映像内容の豊かな意味論により、単一のビデオレベルの記述で全てのフレームをカバーすることは困難である、(2)生のビデオは通常、ノイズや意味のない情報(シーンショット、トランジション、ティーザーなど)を持っている、という2つの理由で失敗することが多い。
多くの最近の研究でこの問題を緩和するための注意機構が展開されているが、無関係でノイズの多い情報は依然として解決が困難である。
このような課題を克服するために,我々はLGDN(Language-Guided Denoising Network)と呼ばれる,映像言語モデリングのための効率的かつ効果的なモデルを提案する。
すべての抽出されたビデオフレームを使用する既存の方法とは異なり、lgdnは言語監督下で不整合または冗長なフレームを動的にフィルタリングし、1ビデオあたり2-4サエントフレームしか取得せず、クロスモーダルトークンレベルのアライメントを行う。
5つの公開データセットに対する大規模な実験は、LGDNが最先端の技術を大きなマージンで上回っていることを示している。
また, 今後の映像言語研究に刺激を与えるため, 騒音問題を解決することの重要性を明らかにするため, 詳細なアブレーション研究を行った。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。