論文の概要: LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2502.15393v1
- Date: Fri, 21 Feb 2025 11:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:06:48.689425
- Title: LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models
- Title(参考訳): ロングキャプション:大規模マルチモーダルモデルにおけるロングキャプション生成のパワーを解き放つ
- Authors: Hongchen Wei, Zhihong Tan, Yaosi Hu, Changwen Chen, Zhenzhong Chen,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は,300語以上の出力を連続的に生成することが困難であることを示す。
複数レベルの記述を集約して長い字幕データを合成するフレームワークであるLongCaption-Agentを提案する。
またLongCaption-BenchはLMMが生成する長文キャプションの品質を評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 52.05596926411973
- License:
- Abstract: Large multimodal models (LMMs) have shown remarkable performance in video understanding tasks and can even process videos longer than one hour. However, despite their ability to handle long inputs, generating outputs with corresponding levels of richness remains a challenge. In this paper, we explore the issue of long outputs in LMMs using video captioning as a proxy task, and we find that open-source LMMs struggle to consistently generate outputs exceeding about 300 words. Through controlled experiments, we find that the scarcity of paired examples with long-captions during training is the primary factor limiting the model's output length. However, manually annotating long-caption examples is time-consuming and expensive. To address this, we propose the LongCaption-Agent, a framework that synthesizes long caption data by aggregating multi-level descriptions. Using LongCaption-Agent, we curated a new long-caption dataset, LongCaption-10K. We also develop LongCaption-Bench, a benchmark designed to comprehensively evaluate the quality of long captions generated by LMMs. By incorporating LongCaption-10K into training, we enable LMMs to generate captions exceeding 1,000 words, while maintaining high output quality. In LongCaption-Bench, our 8B parameter model achieved state-of-the-art performance, even surpassing larger proprietary models. We will release the dataset and code after publication.
- Abstract(参考訳): 大規模なマルチモーダルモデル(LMM)は、ビデオ理解タスクにおいて顕著なパフォーマンスを示し、1時間以上もビデオを処理できる。
しかし、長い入力を扱う能力があるにもかかわらず、対応する富のレベルで出力を生成することは依然として困難である。
本稿では,映像キャプションをプロキシタスクとして用いたLMMにおける長文出力の問題について検討し,約300語を超える出力を生成するのに,オープンソースのLMMが一貫して苦労していることを見出した。
制御実験により, モデル出力長を制限する要因は, 長大な実例と長大な実例の不足であることがわかった。
しかし、手動で長文の例を示すのは時間と費用がかかる。
これを解決するために,複数レベルの記述を集約して長文データを合成するフレームワークであるLongCaption-Agentを提案する。
LongCaption-Agentを使って、新しいロングキャプションデータセットLongCaption-10Kをキュレートした。
またLongCaption-Benchという,LMMが生成する長文キャプションの品質を総合的に評価するベンチマークも開発した。
トレーニングにLongCaption-10Kを組み込むことで、LMMは高い出力品質を維持しつつ、1000語を超えるキャプションを生成することができる。
LongCaption-Benchでは、我々の8Bパラメータモデルは、より大きなプロプライエタリモデルを超えながら、最先端のパフォーマンスを達成した。
発表後、データセットとコードを公開します。
関連論文リスト
- LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models [60.79418872734049]
LongWriter-V-22kは22,158のサンプルのデータセットで、複数の入力イメージ、命令、0から10,000ワードまでの出力がある。
提案するIterDPOは,長い出力をセグメントに分割し,反復補正を用いて元の出力と好みのペアを形成する。
LongWriter-V-22kとIterDPOでトレーニングした7Bパラメータモデルは、ベンチマークで素晴らしいパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-20T18:47:36Z) - Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy [111.1291107651131]
Long-VITAは、長いコンテキストの視覚言語理解タスクのための大規模なマルチモーダルモデルである。
4Kフレームまたは1Mトークン上で、画像、ビデオ、テキストのモダリティを同時に処理し、分析するのに適している。
Long-VITAは完全に再現可能で、トレーニングとテストのためにNPUとGPUプラットフォームの両方をサポートする。
論文 参考訳(メタデータ) (2025-02-07T18:59:56Z) - MemLong: Memory-Augmented Retrieval for Long Text Modeling [37.49036666949963]
この研究はMemLong: Memory-Augmented Retrieval for Long Text Generationを紹介します。
MemLongは、非微分可能なret-mem'モジュールと部分的にトレーニング可能なデコーダのみの言語モデルを組み合わせる。
複数の長文言語モデリングベンチマークに関する総合的な評価は、MemLongが他の最先端のLLMよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-08-30T02:01:56Z) - LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs [57.23637303451716]
LLM(Long context large language model)は、最大10000のトークンを処理できるが、2000ワードを超える出力を生成するのに苦労する。
我々は,超長期タスクをサブタスクに分解するエージェントベースのパイプラインであるAgentWriteを紹介する。
出力長が2kから32kのSFTデータを含むデータセットであるLongWriter-6kを構築した。
論文 参考訳(メタデータ) (2024-08-13T17:46:12Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。