論文の概要: LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2502.15393v1
- Date: Fri, 21 Feb 2025 11:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 21:37:39.151762
- Title: LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models
- Title(参考訳): ロングキャプション:大規模マルチモーダルモデルにおけるロングキャプション生成のパワーを解き放つ
- Authors: Hongchen Wei, Zhihong Tan, Yaosi Hu, Changwen Chen, Zhenzhong Chen,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は,300語以上の出力を連続的に生成することが困難であることを示す。
複数レベルの記述を集約して長い字幕データを合成するフレームワークであるLongCaption-Agentを提案する。
またLongCaption-BenchはLMMが生成する長文キャプションの品質を評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 52.05596926411973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have shown remarkable performance in video understanding tasks and can even process videos longer than one hour. However, despite their ability to handle long inputs, generating outputs with corresponding levels of richness remains a challenge. In this paper, we explore the issue of long outputs in LMMs using video captioning as a proxy task, and we find that open-source LMMs struggle to consistently generate outputs exceeding about 300 words. Through controlled experiments, we find that the scarcity of paired examples with long-captions during training is the primary factor limiting the model's output length. However, manually annotating long-caption examples is time-consuming and expensive. To address this, we propose the LongCaption-Agent, a framework that synthesizes long caption data by aggregating multi-level descriptions. Using LongCaption-Agent, we curated a new long-caption dataset, LongCaption-10K. We also develop LongCaption-Bench, a benchmark designed to comprehensively evaluate the quality of long captions generated by LMMs. By incorporating LongCaption-10K into training, we enable LMMs to generate captions exceeding 1,000 words, while maintaining high output quality. In LongCaption-Bench, our 8B parameter model achieved state-of-the-art performance, even surpassing larger proprietary models. We will release the dataset and code after publication.
- Abstract(参考訳): 大規模なマルチモーダルモデル(LMM)は、ビデオ理解タスクにおいて顕著なパフォーマンスを示し、1時間以上もビデオを処理できる。
しかし、長い入力を扱う能力があるにもかかわらず、対応する富のレベルで出力を生成することは依然として困難である。
本稿では,映像キャプションをプロキシタスクとして用いたLMMにおける長文出力の問題について検討し,約300語を超える出力を生成するのに,オープンソースのLMMが一貫して苦労していることを見出した。
制御実験により, モデル出力長を制限する要因は, 長大な実例と長大な実例の不足であることがわかった。
しかし、手動で長文の例を示すのは時間と費用がかかる。
これを解決するために,複数レベルの記述を集約して長文データを合成するフレームワークであるLongCaption-Agentを提案する。
LongCaption-Agentを使って、新しいロングキャプションデータセットLongCaption-10Kをキュレートした。
またLongCaption-Benchという,LMMが生成する長文キャプションの品質を総合的に評価するベンチマークも開発した。
トレーニングにLongCaption-10Kを組み込むことで、LMMは高い出力品質を維持しつつ、1000語を超えるキャプションを生成することができる。
LongCaption-Benchでは、我々の8Bパラメータモデルは、より大きなプロプライエタリモデルを超えながら、最先端のパフォーマンスを達成した。
発表後、データセットとコードを公開します。
関連論文リスト
- LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models [60.79418872734049]
LongWriter-V-22kは22,158のサンプルのデータセットで、複数の入力イメージ、命令、0から10,000ワードまでの出力がある。
提案するIterDPOは,長い出力をセグメントに分割し,反復補正を用いて元の出力と好みのペアを形成する。
LongWriter-V-22kとIterDPOでトレーニングした7Bパラメータモデルは、ベンチマークで素晴らしいパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-20T18:47:36Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文 参考訳(メタデータ) (2024-10-14T17:59:56Z) - Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [25.61734041983714]
Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。
ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input [34.50993235961505]
Kangarooは、長いビデオを処理するという課題に対処するための強力なビデオLMMである。
データキュレーションシステムは、視覚言語による事前学習と命令チューニングのための高品質なアノテーションを備えた大規模データセットを構築する。
長いビデオに対応するための解像度と入力フレームの数を徐々に増やしたカリキュラムトレーニングパイプライン。
論文 参考訳(メタデータ) (2024-08-28T05:34:14Z) - LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs [57.23637303451716]
LLM(Long context large language model)は、最大10000のトークンを処理できるが、2000ワードを超える出力を生成するのに苦労する。
我々は,超長期タスクをサブタスクに分解するエージェントベースのパイプラインであるAgentWriteを紹介する。
出力長が2kから32kのSFTデータを含むデータセットであるLongWriter-6kを構築した。
論文 参考訳(メタデータ) (2024-08-13T17:46:12Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。