論文の概要: LongCaptioning: Unlocking the Power of Long Video Caption Generation in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2502.15393v2
- Date: Sat, 01 Mar 2025 02:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:09:17.663660
- Title: LongCaptioning: Unlocking the Power of Long Video Caption Generation in Large Multimodal Models
- Title(参考訳): ロングキャプション:大規模マルチモーダルモデルにおけるロングキャプション生成のパワーを解き放つ
- Authors: Hongchen Wei, Zhihong Tan, Yaosi Hu, Chang Wen Chen, Zhenzhong Chen,
- Abstract要約: 大規模マルチモーダルモデル (LMM) はビデオキャプションタスクにおいて例外的な性能を示した。
本稿では,長文ビデオの長文キャプション生成におけるLMMの限界について検討する。
階層的セマンティックアグリゲーションによる長文キャプションデータを合成するフレームワークであるLongCaption-Agentを提案する。
- 参考スコア(独自算出の注目度): 52.05596926411973
- License:
- Abstract: Large Multimodal Models (LMMs) have demonstrated exceptional performance in video captioning tasks, particularly for short videos. However, as the length of the video increases, generating long, detailed captions becomes a significant challenge. In this paper, we investigate the limitations of LMMs in generating long captions for long videos. Our analysis reveals that open-source LMMs struggle to consistently produce outputs exceeding 300 words, leading to incomplete or overly concise descriptions of the visual content. This limitation hinders the ability of LMMs to provide comprehensive and detailed captions for long videos, ultimately missing important visual information. Through controlled experiments, we find that the scarcity of paired examples with long-captions during training is the primary factor limiting the model's output length. However, manually annotating long-caption examples for long-form videos is time-consuming and expensive. To overcome the annotation bottleneck, we propose the LongCaption-Agent, a framework that synthesizes long caption data by hierarchical semantic aggregation. % aggregating multi-level descriptions. Using LongCaption-Agent, we curated a new long-caption dataset, LongCaption-10K. We also develop LongCaption-Bench, a benchmark designed to comprehensively evaluate the quality of long captions generated by LMMs. By incorporating LongCaption-10K into training, we enable LMMs to generate captions exceeding 1,000 words for long-form videos, while maintaining high output quality. In LongCaption-Bench, our model achieved State-of-The-Art performance, even surpassing larger proprietary models like GPT4o.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、特にショートビデオにおいて、ビデオキャプションタスクにおいて例外的なパフォーマンスを示した。
しかし、ビデオの長さが長くなるにつれて、長い詳細なキャプションを生成することが大きな課題となる。
本稿では,長文ビデオの長文キャプション生成におけるLMMの限界について検討する。
分析の結果,オープンソースのLMMは300語を超えるアウトプットを一貫して生成するのに苦労しており,不完全あるいは過度に簡潔な視覚内容の記述に繋がることがわかった。
この制限により、LMMは長いビデオに対して包括的で詳細な字幕を提供することができなくなり、最終的には重要な視覚情報が失われる。
制御実験により, モデル出力長を制限する要因は, 長大な実例と長大な実例の不足であることがわかった。
しかし、手動で長編ビデオの長編例を注釈付けするのは時間と費用がかかる。
アノテーションのボトルネックを克服するために,階層的セマンティックアグリゲーションによって長いキャプションデータを合成するフレームワークであるLongCaption-Agentを提案する。
%であった。
LongCaption-Agentを使って、新しいロングキャプションデータセットLongCaption-10Kをキュレートした。
またLongCaption-Benchという,LMMが生成する長文キャプションの品質を総合的に評価するベンチマークも開発した。
トレーニングにLongCaption-10Kを取り入れることで、LMMは、高い出力品質を維持しつつ、1000ワードを超える長大ビデオのキャプションを生成することができる。
LongCaption-Benchでは、当社のモデルがState-of-The-Artのパフォーマンスを達成し、GPT4oのようなより大きなプロプライエタリモデルを超えました。
関連論文リスト
- LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models [60.79418872734049]
LongWriter-V-22kは22,158のサンプルのデータセットで、複数の入力イメージ、命令、0から10,000ワードまでの出力がある。
提案するIterDPOは,長い出力をセグメントに分割し,反復補正を用いて元の出力と好みのペアを形成する。
LongWriter-V-22kとIterDPOでトレーニングした7Bパラメータモデルは、ベンチマークで素晴らしいパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-20T18:47:36Z) - Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy [111.1291107651131]
Long-VITAは、長いコンテキストの視覚言語理解タスクのための大規模なマルチモーダルモデルである。
4Kフレームまたは1Mトークン上で、画像、ビデオ、テキストのモダリティを同時に処理し、分析するのに適している。
Long-VITAは完全に再現可能で、トレーニングとテストのためにNPUとGPUプラットフォームの両方をサポートする。
論文 参考訳(メタデータ) (2025-02-07T18:59:56Z) - MemLong: Memory-Augmented Retrieval for Long Text Modeling [37.49036666949963]
この研究はMemLong: Memory-Augmented Retrieval for Long Text Generationを紹介します。
MemLongは、非微分可能なret-mem'モジュールと部分的にトレーニング可能なデコーダのみの言語モデルを組み合わせる。
複数の長文言語モデリングベンチマークに関する総合的な評価は、MemLongが他の最先端のLLMよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-08-30T02:01:56Z) - LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs [57.23637303451716]
LLM(Long context large language model)は、最大10000のトークンを処理できるが、2000ワードを超える出力を生成するのに苦労する。
我々は,超長期タスクをサブタスクに分解するエージェントベースのパイプラインであるAgentWriteを紹介する。
出力長が2kから32kのSFTデータを含むデータセットであるLongWriter-6kを構築した。
論文 参考訳(メタデータ) (2024-08-13T17:46:12Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。