Fugu-MT 論文翻訳(概要): LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

論文の概要: LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

arxiv url: http://arxiv.org/abs/2411.19772v1
Date: Fri, 29 Nov 2024 15:18:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:08.052428
Title: LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
Title（参考訳）: LongVALE:ロングビデオの時間認識オムニモーダル知覚に向けたビジョン・オーディオ・ランゲージ・イベントベンチマーク
Authors: Tiantian Geng, Jinrui Zhang, Qingni Wang, Teng Wang, Jinming Duan, Feng Zheng,
Abstract要約: リアルワールドビデオは、密集したストーリーラインを形成する一連のイベントを含む、オムニ・モーダル情報(ビジョン、オーディオ、スピーチ)を含んでいる。微粒なイベントアノテーションによるマルチモーダルビデオデータの欠如と、手動ラベリングの高コストは、全方位ビデオ知覚において大きな障害となる。正確な時間境界を持つ105Kのオムニモーダルイベントからなる視覚・聴覚・言語イベント理解ベンチマークであるLongVALEを提案する。
参考スコア（独自算出の注目度）: 35.767842408259796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite impressive advancements in video understanding, most efforts remain limited to coarse-grained or visual-only video tasks. However, real-world videos encompass omni-modal information (vision, audio, and speech) with a series of events forming a cohesive storyline. The lack of multi-modal video data with fine-grained event annotations and the high cost of manual labeling are major obstacles to comprehensive omni-modality video perception. To address this gap, we propose an automatic pipeline consisting of high-quality multi-modal video filtering, semantically coherent omni-modal event boundary detection, and cross-modal correlation-aware event captioning. In this way, we present LongVALE, the first-ever Vision-Audio-Language Event understanding benchmark comprising 105K omni-modal events with precise temporal boundaries and detailed relation-aware captions within 8.4K high-quality long videos. Further, we build a baseline that leverages LongVALE to enable video large language models (LLMs) for omni-modality fine-grained temporal video understanding for the first time. Extensive experiments demonstrate the effectiveness and great potential of LongVALE in advancing comprehensive multi-modal video understanding.
Abstract（参考訳）: ビデオ理解の進歩は目覚ましいが、ほとんどの努力は、粗い粒度や視覚のみのビデオタスクに限定されている。しかし、実世界のビデオは、密集したストーリーラインを形成する一連のイベントを含む全方位情報(ビジョン、オーディオ、スピーチ)を含んでいる。微粒なイベントアノテーションによるマルチモーダルビデオデータの欠如と、手動ラベリングの高コストは、全方位ビデオ知覚において大きな障害となる。このギャップに対処するために,高品質なマルチモーダルビデオフィルタリング,セマンティックコヒーレントなオムニモーダルイベント境界検出,相互相関対応イベントキャプションからなる自動パイプラインを提案する。このようにして、正確な時間境界を持つ105Kのオムニモーダルイベントと8.4Kの高画質長ビデオ内に詳細な関係対応キャプションを含む、初めてのビジョン・オーディオ・ランゲージ・イベント理解ベンチマークであるLongVALEを提示する。さらに,LongVALEを活用するベースラインを構築し,ビデオ大言語モデル(LLM)を全モードの微細な時間的ビデオ理解に初めて活用する。総合的なマルチモーダルビデオ理解の進展におけるLongVALEの有効性と大きな可能性を実証した。

関連論文リスト

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文参考訳（メタデータ） (2025-07-28T15:52:36Z)
Toward Scalable Video Narration: A Training-free Approach Using Multimodal Large Language Models [10.585096070697348]
本稿では,ビデオキャプションを高密度に生成する新しいトレーニングフリーパイプラインであるVideoNarratorを紹介する。 VideoNarratorは、既製のMLLMとビジュアル言語モデルがキャプションジェネレータとして機能する柔軟なパイプラインを活用することで、課題に対処する。実験の結果,これらの成分の相乗的相互作用はビデオナレーションの品質と精度を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-07-22T22:16:37Z)
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks [3.466119510238668]
現実世界のユーザー生成ビデオ、特にTikTokのようなプラットフォームでは、リッチでインターツウィンドなオーディオビジュアルコンテンツがしばしば表示される。既存のビデオキャプションベンチマークとモデルは、シーンダイナミクス、話者意図、物語コンテキストを伝達する際のオーディオの重要な役割を見越して、主に視覚中心のままである。これらの課題に対処するために,ショートフォームのユーザ生成ビデオの完全なキャプションに特化して設計された,新しいベンチマークおよびモデルフレームワークである-VideoCapを紹介した。
論文参考訳（メタデータ） (2025-07-15T14:08:29Z)
Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding [52.696422425058245]
視覚的エンコーダを備えた多モード大言語モデル(LLM)は、視覚的理解タスクにおいて有望な性能を示した。本稿では、静止画像と短い映像の理解と比較して、長いビデオ理解によって生じる実質的な違いと固有の課題に焦点を当てる。
論文参考訳（メタデータ） (2024-09-27T17:38:36Z)
Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [26.72068455284472]
Video-XLは、時間スケールの効率的なビデオ理解のために設計された、超長い視覚言語モデルである。我々のモデルは、人気のある長大映像理解ベンチマークにおいて有望な結果を得る。
論文参考訳（メタデータ） (2024-09-22T15:13:31Z)
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文参考訳（メタデータ） (2024-08-03T05:35:13Z)
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文参考訳（メタデータ） (2024-07-30T16:43:24Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding [33.85362137961572]
PU-VALORは114,000本以上の擬似アンリム化ビデオと詳細な時間的アノテーションを含む包括的オーディオ視覚データセットである。 PU-VALORは、イベントベースのビデオクラスタリングを含む微妙な方法で、大規模だが粗い注釈付きオーディオ視覚データセットVALORから派生した。 AVicunaは、音声・視覚イベントを時間間隔と対応するテキストトークンに整列できるモデルである。
論文参考訳（メタデータ） (2024-03-24T19:50:49Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset [17.927825332032477]
本稿では,VAST-27Mという大規模モダリティビデオキャプションデータセットを自動生成する手法を提案する。まず、2700万のオープンドメインのビデオクリップを収集し、視覚とオーディオキャプタを別々に訓練して、視覚とオーディオキャプタを生成します。既成のLarge Language Model (LLM) を用いて生成されたキャプションと,字幕と指導プロンプトを総称モダリティキャプションに統合する。
論文参考訳（メタデータ） (2023-05-29T14:34:50Z)
Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文参考訳（メタデータ） (2020-04-05T14:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。