Fugu-MT 論文翻訳(概要): Towards Long Video Understanding via Fine-detailed Video Story Generation

論文の概要: Towards Long Video Understanding via Fine-detailed Video Story Generation

arxiv url: http://arxiv.org/abs/2412.06182v2
Date: Wed, 11 Dec 2024 11:07:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 14:44:55.688403
Title: Towards Long Video Understanding via Fine-detailed Video Story Generation
Title（参考訳）: 細かなビデオストーリー生成による長時間映像理解に向けて
Authors: Zeng You, Zhiquan Wen, Yaofo Chen, Xin Li, Runhao Zeng, Yaowei Wang, Mingkui Tan,
Abstract要約: 長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
参考スコア（独自算出の注目度）: 58.31050916006673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long video understanding has become a critical task in computer vision, driving advancements across numerous applications from surveillance to content retrieval. Existing video understanding methods suffer from two challenges when dealing with long video understanding: intricate long-context relationship modeling and interference from redundancy. To tackle these challenges, we introduce Fine-Detailed Video Story generation (FDVS), which interprets long videos into detailed textual representations. Specifically, to achieve fine-grained modeling of long-temporal content, we propose a Bottom-up Video Interpretation Mechanism that progressively interprets video content from clips to video. To avoid interference from redundant information in videos, we introduce a Semantic Redundancy Reduction mechanism that removes redundancy at both the visual and textual levels. Our method transforms long videos into hierarchical textual representations that contain multi-granularity information of the video. With these representations, FDVS is applicable to various tasks without any fine-tuning. We evaluate the proposed method across eight datasets spanning three tasks. The performance demonstrates the effectiveness and versatility of our method.
Abstract（参考訳）: 長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。これらの課題に対処するために、長いビデオを詳細なテキスト表現に解釈するFDVS(Fin-Detailed Video Story Generation)を導入する。具体的には,映像コンテンツをビデオからビデオへ段階的に解釈するボトムアップビデオ解釈機構を提案する。ビデオにおける冗長な情報の干渉を避けるため,視覚レベルとテキストレベルの両方で冗長性を除去するセマンティック冗長化機構を導入する。提案手法は,長大な動画を階層的なテキスト表現に変換し,映像の多粒度情報を含む。これらの表現では、FDVSは微調整なしで様々なタスクに適用できる。提案手法は,3つのタスクにまたがる8つのデータセットにまたがって評価する。本手法の有効性と汎用性を示す。

関連論文リスト

Infinite Video Understanding [50.78256932424239]
Infinite Video Understandingをブルースキー研究の目的とするフレーミングは、マルチメディアにとって重要な北の星となると我々は主張する。我々は、この変革能力を達成するための主要な課題と研究の方向性を概説する。
論文参考訳（メタデータ） (2025-07-11T23:07:04Z)
Prompt2LVideos: Exploring Prompts for Understanding Long-Form Multimodal Videos [27.678107532472275]
本稿では,長大な講義とニュースビデオからなるデータセットについて紹介する。近年のLarge Language Models(LLM)の進歩は、簡潔で情報的なコンテンツをキャプチャすることを約束している。我々は,長大なマルチモーダルビデオデータセットを包括的に理解するための,迅速なエンジニアリング手法の探求を提唱する。
論文参考訳（メタデータ） (2025-03-11T11:47:48Z)
SEAL: Semantic Attention Learning for Long Video Representation [31.994155533019843]
本稿では,長編ビデオの新たな統一表現であるセマンティック・アテンション・ラーニング(SEAL)を紹介する。計算複雑性を低減するために、長いビデオは3つの異なるタイプのセマンティックエンティティに分解される。私たちの表現は多目的であり、様々な長いビデオ理解タスクにまたがるアプリケーションを可能にします。
論文参考訳（メタデータ） (2024-12-02T18:46:12Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding [52.696422425058245]
視覚的エンコーダを備えた多モード大言語モデル(LLM)は、視覚的理解タスクにおいて有望な性能を示した。本稿では、静止画像と短い映像の理解と比較して、長いビデオ理解によって生じる実質的な違いと固有の課題に焦点を当てる。
論文参考訳（メタデータ） (2024-09-27T17:38:36Z)
OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。自律推論が可能なDivide-and-Conquer Loopを備えている。より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文参考訳（メタデータ） (2024-06-24T13:05:39Z)
Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文参考訳（メタデータ） (2023-12-16T03:17:30Z)
Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文参考訳（メタデータ） (2023-11-30T21:59:05Z)
Query-aware Long Video Localization and Relation Discrimination for Deep Video Understanding [15.697251303126874]
Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
論文参考訳（メタデータ） (2023-10-19T13:26:02Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。