論文の概要: Vamos: Versatile Action Models for Video Understanding
- arxiv url: http://arxiv.org/abs/2311.13627v1
- Date: Wed, 22 Nov 2023 17:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 01:33:04.702035
- Title: Vamos: Versatile Action Models for Video Understanding
- Title(参考訳): Vamos:ビデオ理解のためのVersatile Action Model
- Authors: Shijie Wang, Qi Zhao, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee, Chen
Sun
- Abstract要約: 本稿では、個別のアクションラベルや自由形式のビデオキャプションなど、テキストベースの表現を再検討することを提案する。
そこで我々は,大規模言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案する。
テキストベースの表現は、すべてのベンチマークにおいて一貫して競合性能を達成し、視覚的な埋め込みは、パフォーマンス改善に限界を与えない。
- 参考スコア(独自算出の注目度): 25.03993572202632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What makes good video representations for video understanding, such as
anticipating future activities, or answering video-conditioned questions? While
earlier approaches focus on end-to-end learning directly from video pixels, we
propose to revisit text-based representations, such as discrete action labels,
or free-form video captions, which are interpretable and can be directly
consumed by large language models (LLMs). Intuitively, different video
understanding tasks may require representations that are complementary and at
different granularities. To this end, we propose versatile action models
(Vamos), a learning framework powered by a large language model as the
"reasoner", and can flexibly leverage visual embeddings, action labels, and
free-form descriptions extracted from videos as its input. We evaluate Vamos on
four complementary video understanding benchmarks, Ego4D, Next-QA, IntentQA,
and EgoSchema, on its capability to model temporal dynamics, encode visual
history, and perform reasoning. Surprisingly, we observe that text-based
representations consistently achieve competitive performance on all benchmarks,
and that visual embeddings provide marginal or no performance improvement,
demonstrating the effectiveness of text-based video representation in the LLM
era. We perform extensive ablation study and qualitative analysis to support
our observations, and achieve state-of-the-art performance on three benchmarks.
- Abstract(参考訳): 将来の活動を予測したり、ビデオコンディションの質問に答えたりといった、ビデオ理解のための優れたビデオ表現とは何か?
従来,ビデオ画素から直接のエンド・ツー・エンドの学習に焦点をあてるアプローチでは,個別のアクションラベルや自由形式のビデオキャプションなどのテキストベースの表現を再検討する手法が提案されている。
直感的には、異なるビデオ理解タスクは相補的で異なる粒度の表現を必要とするかもしれない。
そこで本稿では,ビデオから抽出した視覚的埋め込み,アクションラベル,自由形式の記述を柔軟に活用する,大規模言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案する。
本研究では,Vamosを4つの相補的ビデオ理解ベンチマーク(Ego4D,Next-QA,IntentQA,EgoSchema)で評価し,時間的ダイナミクスをモデル化し,視覚履歴をエンコードし,推論を行う能力について検討した。
驚くべきことに、テキストベースの表現は全てのベンチマークにおいて一貫して競争性能を達成し、視覚的な埋め込みは、LLM時代のテキストベースのビデオ表現の有効性を実証し、限界的あるいは全くのパフォーマンス向上をもたらす。
我々は3つのベンチマークで最先端の性能を達成するために、広範囲にわたるアブレーション研究と定性的分析を行った。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools
for Video-based Texts Generation [47.02859025575576]
BiLL-VTGは、ビデオの推論に大規模な言語モデルを活用する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令を用いて対応する映像イベントをローカライズする。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。