論文の概要: LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
- arxiv url: http://arxiv.org/abs/2411.19772v1
- Date: Fri, 29 Nov 2024 15:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:08.118681
- Title: LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
- Title(参考訳): LongVALE:ロングビデオの時間認識オムニモーダル知覚に向けたビジョン・オーディオ・ランゲージ・イベントベンチマーク
- Authors: Tiantian Geng, Jinrui Zhang, Qingni Wang, Teng Wang, Jinming Duan, Feng Zheng,
- Abstract要約: リアルワールドビデオは、密集したストーリーラインを形成する一連のイベントを含む、オムニ・モーダル情報(ビジョン、オーディオ、スピーチ)を含んでいる。
微粒なイベントアノテーションによるマルチモーダルビデオデータの欠如と、手動ラベリングの高コストは、全方位ビデオ知覚において大きな障害となる。
正確な時間境界を持つ105Kのオムニモーダルイベントからなる視覚・聴覚・言語イベント理解ベンチマークであるLongVALEを提案する。
- 参考スコア(独自算出の注目度): 35.767842408259796
- License:
- Abstract: Despite impressive advancements in video understanding, most efforts remain limited to coarse-grained or visual-only video tasks. However, real-world videos encompass omni-modal information (vision, audio, and speech) with a series of events forming a cohesive storyline. The lack of multi-modal video data with fine-grained event annotations and the high cost of manual labeling are major obstacles to comprehensive omni-modality video perception. To address this gap, we propose an automatic pipeline consisting of high-quality multi-modal video filtering, semantically coherent omni-modal event boundary detection, and cross-modal correlation-aware event captioning. In this way, we present LongVALE, the first-ever Vision-Audio-Language Event understanding benchmark comprising 105K omni-modal events with precise temporal boundaries and detailed relation-aware captions within 8.4K high-quality long videos. Further, we build a baseline that leverages LongVALE to enable video large language models (LLMs) for omni-modality fine-grained temporal video understanding for the first time. Extensive experiments demonstrate the effectiveness and great potential of LongVALE in advancing comprehensive multi-modal video understanding.
- Abstract(参考訳): ビデオ理解の進歩は目覚ましいが、ほとんどの努力は、粗い粒度や視覚のみのビデオタスクに限定されている。
しかし、実世界のビデオは、密集したストーリーラインを形成する一連のイベントを含む全方位情報(ビジョン、オーディオ、スピーチ)を含んでいる。
微粒なイベントアノテーションによるマルチモーダルビデオデータの欠如と、手動ラベリングの高コストは、全方位ビデオ知覚において大きな障害となる。
このギャップに対処するために,高品質なマルチモーダルビデオフィルタリング,セマンティックコヒーレントなオムニモーダルイベント境界検出,相互相関対応イベントキャプションからなる自動パイプラインを提案する。
このようにして、正確な時間境界を持つ105Kのオムニモーダルイベントと8.4Kの高画質長ビデオ内に詳細な関係対応キャプションを含む、初めてのビジョン・オーディオ・ランゲージ・イベント理解ベンチマークであるLongVALEを提示する。
さらに,LongVALEを活用するベースラインを構築し,ビデオ大言語モデル(LLM)を全モードの微細な時間的ビデオ理解に初めて活用する。
総合的なマルチモーダルビデオ理解の進展におけるLongVALEの有効性と大きな可能性を実証した。
関連論文リスト
- Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [26.72068455284472]
Video-XLは、時間スケールの効率的なビデオ理解のために設計された、超長い視覚言語モデルである。
我々のモデルは、人気のある長大映像理解ベンチマークにおいて有望な結果を得る。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding [33.85362137961572]
PU-VALORは114,000本以上の擬似アンリム化ビデオと詳細な時間的アノテーションを含む包括的オーディオ視覚データセットである。
PU-VALORは、イベントベースのビデオクラスタリングを含む微妙な方法で、大規模だが粗い注釈付きオーディオ視覚データセットVALORから派生した。
AVicunaは、音声・視覚イベントを時間間隔と対応するテキストトークンに整列できるモデルである。
論文 参考訳(メタデータ) (2024-03-24T19:50:49Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and
Dataset [17.927825332032477]
本稿では,VAST-27Mという大規模モダリティビデオキャプションデータセットを自動生成する手法を提案する。
まず、2700万のオープンドメインのビデオクリップを収集し、視覚とオーディオキャプタを別々に訓練して、視覚とオーディオキャプタを生成します。
既成のLarge Language Model (LLM) を用いて生成されたキャプションと,字幕と指導プロンプトを総称モダリティキャプションに統合する。
論文 参考訳(メタデータ) (2023-05-29T14:34:50Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。