論文の概要: MAViC: Multimodal Active Learning for Video Captioning
- arxiv url: http://arxiv.org/abs/2212.11109v1
- Date: Sun, 11 Dec 2022 18:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 03:03:49.128926
- Title: MAViC: Multimodal Active Learning for Video Captioning
- Title(参考訳): MAViC:ビデオキャプションのためのマルチモーダルアクティブラーニング
- Authors: Gyanendra Das, Xavier Thomas, Anant Raj, Vikram Gupta
- Abstract要約: 本稿では,映像キャプションにおけるアクティブな学習手法の課題に対処するためにMAViCを紹介する。
本手法は,獲得関数における視覚的,言語的両次元のセマンティックな類似性と不確実性を統合する。
- 参考スコア(独自算出の注目度): 8.454261564411436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large number of annotated video-caption pairs are required for training
video captioning models, resulting in high annotation costs. Active learning
can be instrumental in reducing these annotation requirements. However, active
learning for video captioning is challenging because multiple semantically
similar captions are valid for a video, resulting in high entropy outputs even
for less-informative samples. Moreover, video captioning algorithms are
multimodal in nature with a visual encoder and language decoder. Further, the
sequential and combinatorial nature of the output makes the problem even more
challenging. In this paper, we introduce MAViC which leverages our proposed
Multimodal Semantics Aware Sequential Entropy (M-SASE) based acquisition
function to address the challenges of active learning approaches for video
captioning. Our approach integrates semantic similarity and uncertainty of both
visual and language dimensions in the acquisition function. Our detailed
experiments empirically demonstrate the efficacy of M-SASE for active learning
for video captioning and improve on the baselines by a large margin.
- Abstract(参考訳): ビデオキャプションモデルのトレーニングには多数のアノテーション付きビデオキャプションペアが必要であるため、アノテーションのコストが高い。
アクティブラーニングは、これらのアノテーション要件を減らすのに役立ちます。
しかし,マルチセマンティクス的に類似したキャプションがビデオに対して有効であるため,映像キャプションに対する能動的学習は困難である。
さらに、ビデオキャプションアルゴリズムは、視覚エンコーダと言語デコーダで本質的にマルチモーダルである。
さらに、出力の逐次的および組合せ的性質により、問題をさらに困難にする。
本稿では,提案するマルチモーダルセマンティクス認識シーケンシャルエントロピー(m-sase)に基づく獲得関数を活用し,ビデオキャプションにおけるアクティブラーニング手法の課題を解決するmavicを提案する。
本手法は,視覚と言語の両方の次元における意味的類似性と不確実性を統合する。
ビデオキャプションにおけるアクティブラーニングにおけるm-saseの有効性を実証実験により実証し, ベースラインの精度向上に寄与した。
関連論文リスト
- Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Active Learning for Video Description With Cluster-Regularized Ensemble
Ranking [3.5721078031625018]
クラスタ規則化されたアンサンブル戦略は,ビデオキャプションのためのトレーニングセットを効率的に収集する上で,最高のアクティブな学習手法を提供する。
MSR-VTT と LSMDC のデータセットに対して,トランスフォーマとLSTM を用いたキャプションモデルを用いて検討を行った。
論文 参考訳(メタデータ) (2020-07-27T23:52:41Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2017-08-31T11:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。