論文の概要: Prompt2LVideos: Exploring Prompts for Understanding Long-Form Multimodal Videos
- arxiv url: http://arxiv.org/abs/2503.08335v1
- Date: Tue, 11 Mar 2025 11:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.744424
- Title: Prompt2LVideos: Exploring Prompts for Understanding Long-Form Multimodal Videos
- Title(参考訳): Prompt2LVideos: 長期的なマルチモーダルビデオを理解するためのプロンプト
- Authors: Soumya Shamarao Jahagirdar, Jayasree Saha, C V Jawahar,
- Abstract要約: 本稿では,長大な講義とニュースビデオからなるデータセットについて紹介する。
近年のLarge Language Models(LLM)の進歩は、簡潔で情報的なコンテンツをキャプチャすることを約束している。
我々は,長大なマルチモーダルビデオデータセットを包括的に理解するための,迅速なエンジニアリング手法の探求を提唱する。
- 参考スコア(独自算出の注目度): 27.678107532472275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning multimodal video understanding typically relies on datasets comprising video clips paired with manually annotated captions. However, this becomes even more challenging when dealing with long-form videos, lasting from minutes to hours, in educational and news domains due to the need for more annotators with subject expertise. Hence, there arises a need for automated solutions. Recent advancements in Large Language Models (LLMs) promise to capture concise and informative content that allows the comprehension of entire videos by leveraging Automatic Speech Recognition (ASR) and Optical Character Recognition (OCR) technologies. ASR provides textual content from audio, while OCR extracts textual content from specific frames. This paper introduces a dataset comprising long-form lectures and news videos. We present baseline approaches to understand their limitations on this dataset and advocate for exploring prompt engineering techniques to comprehend long-form multimodal video datasets comprehensively.
- Abstract(参考訳): マルチモーダルなビデオ理解の学習は通常、手動で注釈付けされたキャプションと組み合わせたビデオクリップからなるデータセットに依存する。
しかし、対象とする専門知識を持つアノテータの必要性から、教育分野やニュース分野において、数分から数時間の長いビデオを扱う場合、これはさらに困難になる。
そのため、自動化されたソリューションの必要性が生じる。
近年のLarge Language Models(LLMs)の進歩は、自動音声認識(ASR)と光学文字認識(OCR)技術を利用して、ビデオ全体の理解を可能にする簡潔で情報的なコンテンツをキャプチャすることを約束している。
ASRは音声からテキストコンテンツを提供し、OCRは特定のフレームからテキストコンテンツを抽出する。
本稿では,長大な講義とニュースビデオからなるデータセットについて紹介する。
本稿では,このデータセットの限界を理解するためのベースラインアプローチを提案し,長大なマルチモーダルビデオデータセットを包括的に理解するための迅速なエンジニアリング手法の探求を提唱する。
関連論文リスト
- DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering [13.466266412068475]
DocVideoQAタスクとデータセットを初めて紹介し、23のカテゴリにわたる1454のビデオを約828時間に分けた。
データセットには、手動およびGPTを介して154kの質問応答ペアがアノテートされ、モデルの理解、時間的認識、モダリティ統合機能を評価する。
提案手法は,多種多様な指導指導データを用いて一助的特徴抽出を強化し,モダリティ統合を強化するためにコントラスト学習を利用する。
論文 参考訳(メタデータ) (2025-03-20T06:21:25Z) - VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。
VideoRAGは近年のLVLM(Large Video Language Models)を利用している。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - Towards Long Video Understanding via Fine-detailed Video Story Generation [58.31050916006673]
長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。
既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。
長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
論文 参考訳(メタデータ) (2024-12-09T03:41:28Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment [42.557643515992005]
ビデオの理解は、相当量のWebビデオテキストデータが利用できるにもかかわらず、依然として課題である。
ビデオ理解のための大規模言語モデル(LLM)を拡張する新しいアプローチであるテキストオンリー・プレアライメント(TOPA)を導入する。
論文 参考訳(メタデータ) (2024-05-22T18:35:10Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。