論文の概要: Efficient In-Context Learning in Vision-Language Models for Egocentric
Videos
- arxiv url: http://arxiv.org/abs/2311.17041v1
- Date: Tue, 28 Nov 2023 18:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 16:57:58.273900
- Title: Efficient In-Context Learning in Vision-Language Models for Egocentric
Videos
- Title(参考訳): エゴセントリックビデオにおける視覚言語モデルの効率的なインコンテキスト学習
- Authors: Keunwoo Peter Yu, Zheyuan Zhang, Fengyuan Hu, Joyce Chai
- Abstract要約: 本稿では,エゴセントリックなビデオのための大規模視覚言語モデル(VLM)において,コンテキスト内学習を取り入れた新しい学習手法を提案する。
$mathbbEILEV$は、モデルがビデオクリップとナレーションでインターリーブされたコンテキストを処理できるように、アーキテクチャおよびトレーニングデータアダプションを伴います。
我々の評価では、$mathbbEILEV$-trained モデルは、文脈内学習において、大量の自然主義的データに基づいて訓練されたより大きな VLM よりも優れていた。
- 参考スコア(独自算出の注目度): 13.074532879027084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in text-only large language models (LLMs) have
highlighted the benefit of in-context learning for adapting to new tasks with a
few demonstrations. However, extending in-context learning to large
vision-language models (VLMs) using a huge amount of naturalistic
vision-language data has shown limited success, particularly for egocentric
videos, due to high data collection costs. We propose a novel training method
$\mathbb{E}$fficient $\mathbb{I}$n-context $\mathbb{L}$earning on
$\mathbb{E}$gocentric $\mathbb{V}$ideos ($\mathbb{EILEV}$), which elicits
in-context learning in VLMs for egocentric videos without requiring massive,
naturalistic egocentric video datasets. $\mathbb{EILEV}$ involves architectural
and training data adaptations to allow the model to process contexts
interleaved with video clips and narrations, sampling of in-context examples
with clusters of similar verbs and nouns, use of data with skewed marginal
distributions with a long tail of infrequent verbs and nouns, as well as
homonyms and synonyms. Our evaluations show that $\mathbb{EILEV}$-trained
models outperform larger VLMs trained on a huge amount of naturalistic data in
in-context learning. Furthermore, they can generalize to not only
out-of-distribution, but also novel, rare egocentric videos and texts via
in-context learning, demonstrating potential for applications requiring
cost-effective training, and rapid post-deployment adaptability. Our code and
demo are available at \url{https://github.com/yukw777/EILEV}.
- Abstract(参考訳): テキストのみ大規模言語モデル(llm)の最近の進歩は、いくつかのデモで新しいタスクに適応するためのコンテキスト内学習の利点を強調している。
しかし、大量の自然主義的視覚言語データを用いて、コンテキスト内学習を大規模視覚言語モデル(VLM)に拡張することは、特にエゴセントリックなビデオにおいて、高いデータ収集コストのために、限られた成功を示している。
そこで,本研究では,vlms におけるコンテキスト内学習をエゴセントリックなビデオデータセットを必要とせず,vlm で学習する新しい学習法である $\mathbb{e}$fficient $\mathbb{i}$n-context $\mathbb{l}$earning on $\mathbb{e}$gocentric$\mathbb{v}$ideos (\mathbb{eilev}$) を提案する。
$\mathbb{EILEV}$は、モデルがビデオクリップとナレーションでインターリーブされたコンテキストを処理できるようにするための、アーキテクチャとトレーニングのデータ適応、類似した動詞と名詞のクラスタによるコンテキスト内サンプルのサンプリング、希少な動詞と名詞の長い尾を持つスキューされた辺縁分布を持つデータの使用、および同義語とシノニムを含む。
評価の結果,$\mathbb{EILEV}$-trained model は,文脈内学習において大量の自然主義的データに基づいて訓練されたより大きな VLM よりも優れていた。
さらに彼らは、アウトオブディストリビューションだけでなく、新しい、珍しいエゴセントリックなビデオやテキストをインコンテキスト学習を通じて一般化し、コスト効率のよいトレーニングとデプロイ後の迅速な適応性を必要とするアプリケーションの可能性を示している。
コードとデモは \url{https://github.com/yukw777/EILEV} で公開されている。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」
Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。