Fugu-MT 論文翻訳(概要): Efficient In-Context Learning in Vision-Language Models for Egocentric Videos

論文の概要: Efficient In-Context Learning in Vision-Language Models for Egocentric Videos

arxiv url: http://arxiv.org/abs/2311.17041v2
Date: Wed, 29 Nov 2023 15:52:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 12:21:41.732999
Title: Efficient In-Context Learning in Vision-Language Models for Egocentric Videos
Title（参考訳）: エゴセントリックビデオにおける視覚言語モデルの効率的なインコンテキスト学習
Authors: Keunwoo Peter Yu, Zheyuan Zhang, Fengyuan Hu, Joyce Chai
Abstract要約: 本稿では,エゴセントリックなビデオのための大規模視覚言語モデル(VLM)において,コンテキスト内学習を取り入れた新しい学習手法を提案する。 $mathbbEILEV$は、モデルがビデオクリップとナレーションでインターリーブされたコンテキストを処理できるように、アーキテクチャおよびトレーニングデータアダプションを伴います。我々の評価では、$mathbbEILEV$-trained モデルは、文脈内学習において、大量の自然主義的データに基づいて訓練されたより大きな VLM よりも優れていた。
参考スコア（独自算出の注目度）: 13.074532879027084
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in text-only large language models (LLMs) have highlighted the benefit of in-context learning for adapting to new tasks with a few demonstrations. However, extending in-context learning to large vision-language models (VLMs) using a huge amount of naturalistic vision-language data has shown limited success, particularly for egocentric videos, due to high data collection costs. We propose a novel training method $\mathbb{E}$fficient $\mathbb{I}$n-context $\mathbb{L}$earning on $\mathbb{E}$gocentric $\mathbb{V}$ideos ($\mathbb{EILEV}$), which elicits in-context learning in VLMs for egocentric videos without requiring massive, naturalistic egocentric video datasets. $\mathbb{EILEV}$ involves architectural and training data adaptations to allow the model to process contexts interleaved with video clips and narrations, sampling of in-context examples with clusters of similar verbs and nouns, use of data with skewed marginal distributions with a long tail of infrequent verbs and nouns, as well as homonyms and synonyms. Our evaluations show that $\mathbb{EILEV}$-trained models outperform larger VLMs trained on a huge amount of naturalistic data in in-context learning. Furthermore, they can generalize to not only out-of-distribution, but also novel, rare egocentric videos and texts via in-context learning, demonstrating potential for applications requiring cost-effective training, and rapid post-deployment adaptability. Our code and demo are available at \url{https://github.com/yukw777/EILEV}.
Abstract（参考訳）: テキストのみ大規模言語モデル(llm)の最近の進歩は、いくつかのデモで新しいタスクに適応するためのコンテキスト内学習の利点を強調している。しかし、大量の自然主義的視覚言語データを用いて、コンテキスト内学習を大規模視覚言語モデル(VLM)に拡張することは、特にエゴセントリックなビデオにおいて、高いデータ収集コストのために、限られた成功を示している。そこで,本研究では,vlms におけるコンテキスト内学習をエゴセントリックなビデオデータセットを必要とせず,vlm で学習する新しい学習法である $\mathbb{e}$fficient $\mathbb{i}$n-context $\mathbb{l}$earning on $\mathbb{e}$gocentric$\mathbb{v}$ideos (\mathbb{eilev}$) を提案する。 $\mathbb{EILEV}$は、モデルがビデオクリップとナレーションでインターリーブされたコンテキストを処理できるようにするための、アーキテクチャとトレーニングのデータ適応、類似した動詞と名詞のクラスタによるコンテキスト内サンプルのサンプリング、希少な動詞と名詞の長い尾を持つスキューされた辺縁分布を持つデータの使用、および同義語とシノニムを含む。評価の結果,$\mathbb{EILEV}$-trained model は,文脈内学習において大量の自然主義的データに基づいて訓練されたより大きな VLM よりも優れていた。さらに彼らは、アウトオブディストリビューションだけでなく、新しい、珍しいエゴセントリックなビデオやテキストをインコンテキスト学習を通じて一般化し、コスト効率のよいトレーニングとデプロイ後の迅速な適応性を必要とするアプリケーションの可能性を示している。コードとデモは \url{https://github.com/yukw777/EILEV} で公開されている。

関連論文リスト

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」 Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文参考訳（メタデータ） (2023-11-22T17:44:24Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文参考訳（メタデータ） (2021-04-19T15:58:45Z)
Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-12-10T14:47:02Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。