Fugu-MT 論文翻訳(概要): Active Learning for Video Description With Cluster-Regularized Ensemble Ranking

論文の概要: Active Learning for Video Description With Cluster-Regularized Ensemble Ranking

arxiv url: http://arxiv.org/abs/2007.13913v3
Date: Wed, 2 Dec 2020 23:38:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-06 07:35:36.332197
Title: Active Learning for Video Description With Cluster-Regularized Ensemble Ranking
Title（参考訳）: クラスタ正規化アンサンブルランキングを用いたビデオ記述のためのアクティブラーニング
Authors: David M. Chan, Sudheendra Vijayanarasimhan, David A. Ross, John Canny
Abstract要約: クラスタ規則化されたアンサンブル戦略は,ビデオキャプションのためのトレーニングセットを効率的に収集する上で,最高のアクティブな学習手法を提供する。 MSR-VTT と LSMDC のデータセットに対して,トランスフォーマとLSTM を用いたキャプションモデルを用いて検討を行った。
参考スコア（独自算出の注目度）: 3.5721078031625018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic video captioning aims to train models to generate text descriptions for all segments in a video, however, the most effective approaches require large amounts of manual annotation which is slow and expensive. Active learning is a promising way to efficiently build a training set for video captioning tasks while reducing the need to manually label uninformative examples. In this work we both explore various active learning approaches for automatic video captioning and show that a cluster-regularized ensemble strategy provides the best active learning approach to efficiently gather training sets for video captioning. We evaluate our approaches on the MSR-VTT and LSMDC datasets using both transformer and LSTM based captioning models and show that our novel strategy can achieve high performance while using up to 60% fewer training data than the strong state of the art baselines.
Abstract（参考訳）: 自動字幕作成は、ビデオ中の全セグメントのテキスト記述を生成するためにモデルを訓練することを目的としているが、最も効果的なアプローチは、遅くて高価な大量の手動アノテーションを必要とする。アクティブラーニング(active learning)は、ビデオキャプションタスクのトレーニングセットを効率的に構築するための有望な方法だ。本研究では,ビデオキャプションの自動生成のためのさまざまなアクティブラーニング手法を検討し,クラスタ正規化アンサンブル戦略がビデオキャプションのための学習セットを効率的に収集するための最善のアクティブラーニング手法であることを示す。 MSR-VTT と LSMDC のデータセットをトランスフォーマーとLSTM ベースのキャプションモデルの両方を用いて評価し、アートベースラインの強い状態よりも最大60%少ないトレーニングデータを使用しながら、我々の新しい戦略がハイパフォーマンスを実現することを示す。

関連論文リスト

Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文参考訳（メタデータ） (2024-06-19T20:16:17Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
MAViC: Multimodal Active Learning for Video Captioning [8.454261564411436]
本稿では,映像キャプションにおけるアクティブな学習手法の課題に対処するためにMAViCを紹介する。本手法は,獲得関数における視覚的,言語的両次元のセマンティックな類似性と不確実性を統合する。
論文参考訳（メタデータ） (2022-12-11T18:51:57Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文参考訳（メタデータ） (2021-10-20T14:45:13Z)
CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文参考訳（メタデータ） (2021-10-13T10:17:06Z)
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文参考訳（メタデータ） (2021-08-23T07:24:57Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。