論文の概要: Vamos: Versatile Action Models for Video Understanding
- arxiv url: http://arxiv.org/abs/2311.13627v2
- Date: Tue, 28 May 2024 07:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 04:07:24.392904
- Title: Vamos: Versatile Action Models for Video Understanding
- Title(参考訳): Vamos:ビデオ理解のためのVersatile Action Model
- Authors: Shijie Wang, Qi Zhao, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee, Chen Sun,
- Abstract要約: 「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」
Ego4D,NeXT-QA,Intent EgoQA,EgoQAの4つの相補的ビデオ理解ベンチマークでVamosを評価する。
テキストベースの表現は、すべてのベンチマークで一貫して競合性能を達成し、視覚的な埋め込みは、性能改善に限界があるか、あるいは、ないかを観察する。
- 参考スコア(独自算出の注目度): 23.631145570126268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What makes good representations for video understanding, such as anticipating future activities, or answering video-conditioned questions? While earlier approaches focus on end-to-end learning directly from video pixels, we propose to revisit text-based representations, such as general-purpose video captions, which are interpretable and can be directly consumed by large language models (LLMs). Intuitively, different video understanding tasks may require representations that are complementary and at different granularity. To this end, we propose versatile action models (Vamos), a learning framework powered by a large language model as the ``reasoner'', and can flexibly leverage visual embedding and free-form text descriptions as its input. To interpret the important text evidence for question answering, we generalize the concept bottleneck model to work with tokens and nonlinear models, which uses hard attention to select a small subset of tokens from the free-form text as inputs to the LLM reasoner. We evaluate Vamos on four complementary video understanding benchmarks, Ego4D, NeXT-QA, IntentQA, and EgoSchema, on its capability to model temporal dynamics, encode visual history, and perform reasoning. Surprisingly, we observe that text-based representations consistently achieve competitive performance on all benchmarks, and that visual embeddings provide marginal or no performance improvement, demonstrating the effectiveness of text-based video representation in the LLM era. We also demonstrate that our token bottleneck model is able to select relevant evidence from free-form text, support test-time intervention, and achieves nearly 5 times inference speedup while keeping a competitive question answering performance. Code and models are publicly released at https://brown-palm.github.io/Vamos/.
- Abstract(参考訳): 将来の活動を見越したり、ビデオ条件の質問に答えたりするなど、ビデオ理解によい表現は何だろうか?
従来,ビデオ画素から直接のエンド・ツー・エンドの学習に焦点が当てられていたが,大容量の言語モデル(LLM)で直接使用可能な汎用ビデオキャプションなど,テキストベースの表現の再検討を提案する。
直感的には、異なるビデオ理解タスクは相補的で異なる粒度の表現を必要とするかもしれない。
この目的のために我々は,大規模な言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案し,その入力として視覚的埋め込みや自由形式のテキスト記述を柔軟に活用することができる。
質問応答のための重要なテキストエビデンスを解釈するために,トークンや非線形モデルを扱うために,概念ボトルネックモデルを一般化し,自由形式のテキストからトークンの小さなサブセットをLSM推論器への入力として選択する。
Ego4D,NeXT-QA,IntentQA,EgoSchemaの4つの相補的ビデオ理解ベンチマークを用いてVamosの評価を行い,時間的ダイナミクスをモデル化し,視覚履歴をエンコードし,推論を行う能力について検討した。
驚くべきことに、テキストベースの表現は全てのベンチマークにおいて一貫して競争性能を達成し、視覚的な埋め込みは、LLM時代のテキストベースのビデオ表現の有効性を実証し、限界的あるいは全くのパフォーマンス向上をもたらす。
また, トークンボトルネックモデルにより, フリーフォームテキストから関連する証拠を抽出し, テスト時間介入をサポートし, 競合する質問応答性能を維持しながら, ほぼ5倍の推論高速化を実現できることを実証した。
コードとモデルはhttps://brown-palm.github.io/Vamos/.comで公開されている。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties [13.938281516499119]
textbfEmergent textbfIn-context textbfLearning on textbfVideos (eilev)を実装する。
我々の結果、分析、およびアイレフ学習モデルは、ビデオやテキスト上での文脈内学習の出現に関する多くの洞察を得られる。
論文 参考訳(メタデータ) (2023-11-28T18:53:06Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。