論文の概要: Active Learning for Video Description With Cluster-Regularized Ensemble
Ranking
- arxiv url: http://arxiv.org/abs/2007.13913v3
- Date: Wed, 2 Dec 2020 23:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 07:35:36.332197
- Title: Active Learning for Video Description With Cluster-Regularized Ensemble
Ranking
- Title(参考訳): クラスタ正規化アンサンブルランキングを用いたビデオ記述のためのアクティブラーニング
- Authors: David M. Chan, Sudheendra Vijayanarasimhan, David A. Ross, John Canny
- Abstract要約: クラスタ規則化されたアンサンブル戦略は,ビデオキャプションのためのトレーニングセットを効率的に収集する上で,最高のアクティブな学習手法を提供する。
MSR-VTT と LSMDC のデータセットに対して,トランスフォーマとLSTM を用いたキャプションモデルを用いて検討を行った。
- 参考スコア(独自算出の注目度): 3.5721078031625018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic video captioning aims to train models to generate text descriptions
for all segments in a video, however, the most effective approaches require
large amounts of manual annotation which is slow and expensive. Active learning
is a promising way to efficiently build a training set for video captioning
tasks while reducing the need to manually label uninformative examples. In this
work we both explore various active learning approaches for automatic video
captioning and show that a cluster-regularized ensemble strategy provides the
best active learning approach to efficiently gather training sets for video
captioning. We evaluate our approaches on the MSR-VTT and LSMDC datasets using
both transformer and LSTM based captioning models and show that our novel
strategy can achieve high performance while using up to 60% fewer training data
than the strong state of the art baselines.
- Abstract(参考訳): 自動字幕作成は、ビデオ中の全セグメントのテキスト記述を生成するためにモデルを訓練することを目的としているが、最も効果的なアプローチは、遅くて高価な大量の手動アノテーションを必要とする。
アクティブラーニング(active learning)は、ビデオキャプションタスクのトレーニングセットを効率的に構築するための有望な方法だ。
本研究では,ビデオキャプションの自動生成のためのさまざまなアクティブラーニング手法を検討し,クラスタ正規化アンサンブル戦略がビデオキャプションのための学習セットを効率的に収集するための最善のアクティブラーニング手法であることを示す。
MSR-VTT と LSMDC のデータセットをトランスフォーマーとLSTM ベースのキャプションモデルの両方を用いて評価し、アートベースラインの強い状態よりも最大60%少ないトレーニングデータを使用しながら、我々の新しい戦略がハイパフォーマンスを実現することを示す。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - MAViC: Multimodal Active Learning for Video Captioning [8.454261564411436]
本稿では,映像キャプションにおけるアクティブな学習手法の課題に対処するためにMAViCを紹介する。
本手法は,獲得関数における視覚的,言語的両次元のセマンティックな類似性と不確実性を統合する。
論文 参考訳(メタデータ) (2022-12-11T18:51:57Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。