論文の概要: LongCaptioning: Unlocking the Power of Long Video Caption Generation in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2502.15393v2
- Date: Sat, 01 Mar 2025 02:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 15:02:13.726428
- Title: LongCaptioning: Unlocking the Power of Long Video Caption Generation in Large Multimodal Models
- Title(参考訳): ロングキャプション:大規模マルチモーダルモデルにおけるロングキャプション生成のパワーを解き放つ
- Authors: Hongchen Wei, Zhihong Tan, Yaosi Hu, Chang Wen Chen, Zhenzhong Chen,
- Abstract要約: 大規模マルチモーダルモデル (LMM) はビデオキャプションタスクにおいて例外的な性能を示した。
本稿では,長文ビデオの長文キャプション生成におけるLMMの限界について検討する。
階層的セマンティックアグリゲーションによる長文キャプションデータを合成するフレームワークであるLongCaption-Agentを提案する。
- 参考スコア(独自算出の注目度): 52.05596926411973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have demonstrated exceptional performance in video captioning tasks, particularly for short videos. However, as the length of the video increases, generating long, detailed captions becomes a significant challenge. In this paper, we investigate the limitations of LMMs in generating long captions for long videos. Our analysis reveals that open-source LMMs struggle to consistently produce outputs exceeding 300 words, leading to incomplete or overly concise descriptions of the visual content. This limitation hinders the ability of LMMs to provide comprehensive and detailed captions for long videos, ultimately missing important visual information. Through controlled experiments, we find that the scarcity of paired examples with long-captions during training is the primary factor limiting the model's output length. However, manually annotating long-caption examples for long-form videos is time-consuming and expensive. To overcome the annotation bottleneck, we propose the LongCaption-Agent, a framework that synthesizes long caption data by hierarchical semantic aggregation. % aggregating multi-level descriptions. Using LongCaption-Agent, we curated a new long-caption dataset, LongCaption-10K. We also develop LongCaption-Bench, a benchmark designed to comprehensively evaluate the quality of long captions generated by LMMs. By incorporating LongCaption-10K into training, we enable LMMs to generate captions exceeding 1,000 words for long-form videos, while maintaining high output quality. In LongCaption-Bench, our model achieved State-of-The-Art performance, even surpassing larger proprietary models like GPT4o.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、特にショートビデオにおいて、ビデオキャプションタスクにおいて例外的なパフォーマンスを示した。
しかし、ビデオの長さが長くなるにつれて、長い詳細なキャプションを生成することが大きな課題となる。
本稿では,長文ビデオの長文キャプション生成におけるLMMの限界について検討する。
分析の結果,オープンソースのLMMは300語を超えるアウトプットを一貫して生成するのに苦労しており,不完全あるいは過度に簡潔な視覚内容の記述に繋がることがわかった。
この制限により、LMMは長いビデオに対して包括的で詳細な字幕を提供することができなくなり、最終的には重要な視覚情報が失われる。
制御実験により, モデル出力長を制限する要因は, 長大な実例と長大な実例の不足であることがわかった。
しかし、手動で長編ビデオの長編例を注釈付けするのは時間と費用がかかる。
アノテーションのボトルネックを克服するために,階層的セマンティックアグリゲーションによって長いキャプションデータを合成するフレームワークであるLongCaption-Agentを提案する。
%であった。
LongCaption-Agentを使って、新しいロングキャプションデータセットLongCaption-10Kをキュレートした。
またLongCaption-Benchという,LMMが生成する長文キャプションの品質を総合的に評価するベンチマークも開発した。
トレーニングにLongCaption-10Kを取り入れることで、LMMは、高い出力品質を維持しつつ、1000ワードを超える長大ビデオのキャプションを生成することができる。
LongCaption-Benchでは、当社のモデルがState-of-The-Artのパフォーマンスを達成し、GPT4oのようなより大きなプロプライエタリモデルを超えました。
関連論文リスト
- LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models [60.79418872734049]
LongWriter-V-22kは22,158のサンプルのデータセットで、複数の入力イメージ、命令、0から10,000ワードまでの出力がある。
提案するIterDPOは,長い出力をセグメントに分割し,反復補正を用いて元の出力と好みのペアを形成する。
LongWriter-V-22kとIterDPOでトレーニングした7Bパラメータモデルは、ベンチマークで素晴らしいパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-20T18:47:36Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文 参考訳(メタデータ) (2024-10-14T17:59:56Z) - Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [25.61734041983714]
Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。
ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input [34.50993235961505]
Kangarooは、長いビデオを処理するという課題に対処するための強力なビデオLMMである。
データキュレーションシステムは、視覚言語による事前学習と命令チューニングのための高品質なアノテーションを備えた大規模データセットを構築する。
長いビデオに対応するための解像度と入力フレームの数を徐々に増やしたカリキュラムトレーニングパイプライン。
論文 参考訳(メタデータ) (2024-08-28T05:34:14Z) - LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs [57.23637303451716]
LLM(Long context large language model)は、最大10000のトークンを処理できるが、2000ワードを超える出力を生成するのに苦労する。
我々は,超長期タスクをサブタスクに分解するエージェントベースのパイプラインであるAgentWriteを紹介する。
出力長が2kから32kのSFTデータを含むデータセットであるLongWriter-6kを構築した。
論文 参考訳(メタデータ) (2024-08-13T17:46:12Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。