論文の概要: Vamos: Versatile Action Models for Video Understanding
- arxiv url: http://arxiv.org/abs/2311.13627v1
- Date: Wed, 22 Nov 2023 17:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 01:33:04.702035
- Title: Vamos: Versatile Action Models for Video Understanding
- Title(参考訳): Vamos:ビデオ理解のためのVersatile Action Model
- Authors: Shijie Wang, Qi Zhao, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee, Chen
Sun
- Abstract要約: 本稿では、個別のアクションラベルや自由形式のビデオキャプションなど、テキストベースの表現を再検討することを提案する。
そこで我々は,大規模言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案する。
テキストベースの表現は、すべてのベンチマークにおいて一貫して競合性能を達成し、視覚的な埋め込みは、パフォーマンス改善に限界を与えない。
- 参考スコア(独自算出の注目度): 25.03993572202632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What makes good video representations for video understanding, such as
anticipating future activities, or answering video-conditioned questions? While
earlier approaches focus on end-to-end learning directly from video pixels, we
propose to revisit text-based representations, such as discrete action labels,
or free-form video captions, which are interpretable and can be directly
consumed by large language models (LLMs). Intuitively, different video
understanding tasks may require representations that are complementary and at
different granularities. To this end, we propose versatile action models
(Vamos), a learning framework powered by a large language model as the
"reasoner", and can flexibly leverage visual embeddings, action labels, and
free-form descriptions extracted from videos as its input. We evaluate Vamos on
four complementary video understanding benchmarks, Ego4D, Next-QA, IntentQA,
and EgoSchema, on its capability to model temporal dynamics, encode visual
history, and perform reasoning. Surprisingly, we observe that text-based
representations consistently achieve competitive performance on all benchmarks,
and that visual embeddings provide marginal or no performance improvement,
demonstrating the effectiveness of text-based video representation in the LLM
era. We perform extensive ablation study and qualitative analysis to support
our observations, and achieve state-of-the-art performance on three benchmarks.
- Abstract(参考訳): 将来の活動を予測したり、ビデオコンディションの質問に答えたりといった、ビデオ理解のための優れたビデオ表現とは何か?
従来,ビデオ画素から直接のエンド・ツー・エンドの学習に焦点をあてるアプローチでは,個別のアクションラベルや自由形式のビデオキャプションなどのテキストベースの表現を再検討する手法が提案されている。
直感的には、異なるビデオ理解タスクは相補的で異なる粒度の表現を必要とするかもしれない。
そこで本稿では,ビデオから抽出した視覚的埋め込み,アクションラベル,自由形式の記述を柔軟に活用する,大規模言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案する。
本研究では,Vamosを4つの相補的ビデオ理解ベンチマーク(Ego4D,Next-QA,IntentQA,EgoSchema)で評価し,時間的ダイナミクスをモデル化し,視覚履歴をエンコードし,推論を行う能力について検討した。
驚くべきことに、テキストベースの表現は全てのベンチマークにおいて一貫して競争性能を達成し、視覚的な埋め込みは、LLM時代のテキストベースのビデオ表現の有効性を実証し、限界的あるいは全くのパフォーマンス向上をもたらす。
我々は3つのベンチマークで最先端の性能を達成するために、広範囲にわたるアブレーション研究と定性的分析を行った。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties [13.938281516499119]
textbfEmergent textbfIn-context textbfLearning on textbfVideos (eilev)を実装する。
我々の結果、分析、およびアイレフ学習モデルは、ビデオやテキスト上での文脈内学習の出現に関する多くの洞察を得られる。
論文 参考訳(メタデータ) (2023-11-28T18:53:06Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。