論文の概要: Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs
- arxiv url: http://arxiv.org/abs/2504.00072v1
- Date: Mon, 31 Mar 2025 17:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:21.140623
- Title: Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs
- Title(参考訳): Chapter-Llama: LLMを用いた時間長ビデオの効率的な章作成
- Authors: Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol,
- Abstract要約: ビデオチャプティングの課題、すなわち、長いビデオタイムラインを意味単位に分割し、対応するチャプティングタイトルを生成する。
本稿では,音声書き起こし内容に基づく軽量な音声誘導フレーム選択手法を提案し,その利点を実験的に示す。
以上の結果から,最新のVidChapters-7Mベンチマークでは,技術の現状よりも大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 59.854331104466254
- License:
- Abstract: We address the task of video chaptering, i.e., partitioning a long video timeline into semantic units and generating corresponding chapter titles. While relatively underexplored, automatic chaptering has the potential to enable efficient navigation and content retrieval in long-form videos. In this paper, we achieve strong chaptering performance on hour-long videos by efficiently addressing the problem in the text domain with our 'Chapter-Llama' framework. Specifically, we leverage a pretrained large language model (LLM) with large context window, and feed as input (i) speech transcripts and (ii) captions describing video frames, along with their respective timestamps. Given the inefficiency of exhaustively captioning all frames, we propose a lightweight speech-guided frame selection strategy based on speech transcript content, and experimentally demonstrate remarkable advantages. We train the LLM to output timestamps for the chapter boundaries, as well as free-form chapter titles. This simple yet powerful approach scales to processing one-hour long videos in a single forward pass. Our results demonstrate substantial improvements (e.g., 45.3 vs 26.7 F1 score) over the state of the art on the recent VidChapters-7M benchmark. To promote further research, we release our code and models at our project page.
- Abstract(参考訳): ビデオチャプティングの課題、すなわち、長いビデオタイムラインを意味単位に分割し、対応するチャプティングタイトルを生成する。
比較的探索されていないが、自動チャプティングは、ロングフォームビデオにおける効率的なナビゲーションとコンテンツ検索を可能にする可能性を秘めている。
本稿では,テキスト領域の問題を 'Chapter-Llama' フレームワークで効率よく解決し,時間長ビデオのチャプティング性能を向上する。
具体的には、大きなコンテキストウィンドウを持つ事前訓練された大言語モデル(LLM)を活用し、入力としてフィードする。
(i)音声の書き起こし
(ii)ビデオフレームと各タイムスタンプのキャプション。
本研究は,全フレームを包括的に字幕化することの非効率さを考慮し,音声書き起こし内容に基づく軽量な音声誘導フレーム選択戦略を提案し,顕著な利点を実験的に示す。
LLMをトレーニングして、章境界のタイムスタンプと、フリーフォームの章タイトルを出力します。
このシンプルだが強力なアプローチは、1時間の長いビデオを1回のフォワードパスで処理する。
我々の結果は、最近のVidChapters-7Mベンチマークの最先端よりも大幅に改善されている(例: 45.3 対 26.7 F1 スコア)。
さらなる研究を促進するため、私たちはプロジェクトページでコードとモデルを公開しています。
関連論文リスト
- Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - VidChapters-7M: Video Chapters at Scale [110.19323390486775]
VidChapters-7Mは、合計で7M章を含む817万のユーザチャプター付きビデオのデータセットである。
VidChapters-7Mは、ユーザーが注釈を付けた章をスクラップすることで、オンラインビデオから自動的にスケーラブルな方法で作成される。
VidChapters-7Mの事前トレーニングは、ゼロショットと微調整の両方で、高密度な映像キャプションタスクに適していることを示す。
論文 参考訳(メタデータ) (2023-09-25T08:38:11Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。