論文の概要: GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-grained Video-language Learning
- arxiv url: http://arxiv.org/abs/2412.07704v1
- Date: Tue, 10 Dec 2024 17:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:51.305680
- Title: GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-grained Video-language Learning
- Title(参考訳): GEXIA:スケーラブルな多粒ビデオ言語学習のための粒度拡大と反復近似
- Authors: Yicheng Wang, Zhikang Zhang, Jue Wang, David Fan, Zhenlin Xu, Linda Liu, Xiang Hao, Vimal Bhat, Xinyu Li,
- Abstract要約: 本稿では,1つの粒度データセットの粒度を拡大するために,積分演算と圧縮演算を併用した粒度拡張(GEX)手法を提案する。
IAM(Iterative Approximation Module)を導入し,複数の粒度の動画やテキストを統一された低次元セマンティック空間に埋め込む。
我々は7つのベンチマークデータセットにまたがるビデオタスクの3つのカテゴリに関する作業を評価し、最先端または同等のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 20.210972863275924
- License:
- Abstract: In various video-language learning tasks, the challenge of achieving cross-modality alignment with multi-grained data persists. We propose a method to tackle this challenge from two crucial perspectives: data and modeling. Given the absence of a multi-grained video-text pretraining dataset, we introduce a Granularity EXpansion (GEX) method with Integration and Compression operations to expand the granularity of a single-grained dataset. To better model multi-grained data, we introduce an Iterative Approximation Module (IAM), which embeds multi-grained videos and texts into a unified, low-dimensional semantic space while preserving essential information for cross-modal alignment. Furthermore, GEXIA is highly scalable with no restrictions on the number of video-text granularities for alignment. We evaluate our work on three categories of video tasks across seven benchmark datasets, showcasing state-of-the-art or comparable performance. Remarkably, our model excels in tasks involving long-form video understanding, even though the pretraining dataset only contains short video clips.
- Abstract(参考訳): 様々なビデオ言語学習タスクにおいて、多粒度データとの相互モダリティアライメントを実現するという課題が持続する。
本稿では,データとモデリングという2つの重要な観点から,この問題に対処する手法を提案する。
多粒度ビデオテキスト事前学習データセットが存在しないことを踏まえ、統合および圧縮操作による粒度拡張(GEX)法を導入し、単一粒度データセットの粒度を拡大する。
IAM(Iterative Approximation Module)を導入し,マルチグラデーションなビデオやテキストを低次元のセマンティック空間に埋め込むとともに,モーダルアライメントに必要な情報を保存する。
さらに、GEXIAは高度にスケーラブルであり、アライメントのためのビデオテキストの粒度に制限はない。
我々は7つのベンチマークデータセットにまたがるビデオタスクの3つのカテゴリに関する作業を評価し、最先端または同等のパフォーマンスを示す。
トレーニング済みのデータセットには短いビデオクリップしか含まれていないが、このモデルでは長めのビデオ理解に関わるタスクが優れている。
関連論文リスト
- MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。