論文の概要: Koala: Key frame-conditioned long video-LLM
- arxiv url: http://arxiv.org/abs/2404.04346v2
- Date: Fri, 19 Apr 2024 12:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 17:23:46.478843
- Title: Koala: Key frame-conditioned long video-LLM
- Title(参考訳): コアラ:キーフレームコンディション長ビデオLLM
- Authors: Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko,
- Abstract要約: 我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
- 参考スコア(独自算出の注目度): 70.52369588364992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long video question answering is a challenging task that involves recognizing short-term activities and reasoning about their fine-grained relationships. State-of-the-art video Large Language Models (vLLMs) hold promise as a viable solution due to their demonstrated emergent capabilities on new tasks. However, despite being trained on millions of short seconds-long videos, vLLMs are unable to understand minutes-long videos and accurately answer questions about them. To address this limitation, we propose a lightweight and self-supervised approach, Key frame-conditioned long video-LLM (Koala), that introduces learnable spatiotemporal queries to adapt pretrained vLLMs for generalizing to longer videos. Our approach introduces two new tokenizers that condition on visual tokens computed from sparse video key frames for understanding short and long video moments. We train our proposed approach on HowTo100M and demonstrate its effectiveness on zero-shot long video understanding benchmarks, where it outperforms state-of-the-art large models by 3 - 6% in absolute accuracy across all tasks. Surprisingly, we also empirically show that our approach not only helps a pretrained vLLM to understand long videos but also improves its accuracy on short-term action recognition.
- Abstract(参考訳): 長時間のビデオ質問応答は、短期活動を認識し、それらのきめ細かい関係を推論する難しいタスクである。
最先端のビデオであるLarge Language Models (vLLMs)は、新しいタスクの創発的な機能を示すため、実現可能なソリューションとして期待されている。
しかし、数百万秒の短いビデオで訓練されているにもかかわらず、vLLMは数分のビデオを理解できず、正確な質問に答えることができない。
この制限に対処するために、より長いビデオに一般化するために、学習可能な時空間クエリを導入し、事前学習したvLLMに適応する、軽量で自己管理的なアプローチ、Key frame-conditioned long video-LLM (Koala)を提案する。
提案手法では,ショート・ビデオ・モーメントとロング・ビデオ・モーメントの理解のために,スパース・ビデオ・キーフレームから計算した視覚トークンを条件とした2つの新しいトークン化手法を提案する。
提案手法をHowTo100Mで学習し、その効果をゼロショット長ビデオ理解ベンチマークで示し、すべてのタスクにおいて3~6%の精度で最先端の大規模モデルより優れていることを示す。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
関連論文リスト
- MovieChat+: Question-aware Sparse Memory for Long Video Question Answering [36.14140811797466]
長編ビデオの理解という課題を克服するために,MovieChatを提案する。
我々はトランスフォーマーのトークンを特別な設計のメモリ機構と組み合わせてメモリのキャリアとして使用しています。
MovieChatは1Kの長ビデオと2Kの時間的グラウンドラベルと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長いビデオ理解における最先端のパフォーマンスを実現し、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-04-26T06:17:04Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMは、長いビデオ理解のための強力なビデオLLMである。
長編ビデオを短期セグメントに分解し、階層的トークンモジュールを介して各ローカルセグメントのローカル特徴を符号化する。
グローバルなセマンティクスを各ローカル機能に統合し、コンテキスト理解を強化する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Understanding Long Videos in One Multimodal Language Model Pass [44.78900245769057]
LLM(Large Language Models)は、世界の知識を強く認識することで知られる。
自己回帰 LLM における高速な推論を実現する手法である Likelihood Selection を提案する。
得られたMultimodal Video Understandingフレームワークは、長ビデオおよびきめ細かいアクション認識ベンチマークにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - A Simple LLM Framework for Long-Range Video Question-Answering [66.68887077133355]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。