論文の概要: Efficient In-Context Learning in Vision-Language Models for Egocentric
Videos
- arxiv url: http://arxiv.org/abs/2311.17041v2
- Date: Wed, 29 Nov 2023 15:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 12:21:41.732999
- Title: Efficient In-Context Learning in Vision-Language Models for Egocentric
Videos
- Title(参考訳): エゴセントリックビデオにおける視覚言語モデルの効率的なインコンテキスト学習
- Authors: Keunwoo Peter Yu, Zheyuan Zhang, Fengyuan Hu, Joyce Chai
- Abstract要約: 本稿では,エゴセントリックなビデオのための大規模視覚言語モデル(VLM)において,コンテキスト内学習を取り入れた新しい学習手法を提案する。
$mathbbEILEV$は、モデルがビデオクリップとナレーションでインターリーブされたコンテキストを処理できるように、アーキテクチャおよびトレーニングデータアダプションを伴います。
我々の評価では、$mathbbEILEV$-trained モデルは、文脈内学習において、大量の自然主義的データに基づいて訓練されたより大きな VLM よりも優れていた。
- 参考スコア(独自算出の注目度): 13.074532879027084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in text-only large language models (LLMs) have
highlighted the benefit of in-context learning for adapting to new tasks with a
few demonstrations. However, extending in-context learning to large
vision-language models (VLMs) using a huge amount of naturalistic
vision-language data has shown limited success, particularly for egocentric
videos, due to high data collection costs. We propose a novel training method
$\mathbb{E}$fficient $\mathbb{I}$n-context $\mathbb{L}$earning on
$\mathbb{E}$gocentric $\mathbb{V}$ideos ($\mathbb{EILEV}$), which elicits
in-context learning in VLMs for egocentric videos without requiring massive,
naturalistic egocentric video datasets. $\mathbb{EILEV}$ involves architectural
and training data adaptations to allow the model to process contexts
interleaved with video clips and narrations, sampling of in-context examples
with clusters of similar verbs and nouns, use of data with skewed marginal
distributions with a long tail of infrequent verbs and nouns, as well as
homonyms and synonyms. Our evaluations show that $\mathbb{EILEV}$-trained
models outperform larger VLMs trained on a huge amount of naturalistic data in
in-context learning. Furthermore, they can generalize to not only
out-of-distribution, but also novel, rare egocentric videos and texts via
in-context learning, demonstrating potential for applications requiring
cost-effective training, and rapid post-deployment adaptability. Our code and
demo are available at \url{https://github.com/yukw777/EILEV}.
- Abstract(参考訳): テキストのみ大規模言語モデル(llm)の最近の進歩は、いくつかのデモで新しいタスクに適応するためのコンテキスト内学習の利点を強調している。
しかし、大量の自然主義的視覚言語データを用いて、コンテキスト内学習を大規模視覚言語モデル(VLM)に拡張することは、特にエゴセントリックなビデオにおいて、高いデータ収集コストのために、限られた成功を示している。
そこで,本研究では,vlms におけるコンテキスト内学習をエゴセントリックなビデオデータセットを必要とせず,vlm で学習する新しい学習法である $\mathbb{e}$fficient $\mathbb{i}$n-context $\mathbb{l}$earning on $\mathbb{e}$gocentric$\mathbb{v}$ideos (\mathbb{eilev}$) を提案する。
$\mathbb{EILEV}$は、モデルがビデオクリップとナレーションでインターリーブされたコンテキストを処理できるようにするための、アーキテクチャとトレーニングのデータ適応、類似した動詞と名詞のクラスタによるコンテキスト内サンプルのサンプリング、希少な動詞と名詞の長い尾を持つスキューされた辺縁分布を持つデータの使用、および同義語とシノニムを含む。
評価の結果,$\mathbb{EILEV}$-trained model は,文脈内学習において大量の自然主義的データに基づいて訓練されたより大きな VLM よりも優れていた。
さらに彼らは、アウトオブディストリビューションだけでなく、新しい、珍しいエゴセントリックなビデオやテキストをインコンテキスト学習を通じて一般化し、コスト効率のよいトレーニングとデプロイ後の迅速な適応性を必要とするアプリケーションの可能性を示している。
コードとデモは \url{https://github.com/yukw777/EILEV} で公開されている。
関連論文リスト
- Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks [38.05496300873095]
ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。
X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
論文 参考訳(メタデータ) (2022-11-22T16:48:01Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。