論文の概要: LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.14834v1
- Date: Thu, 20 Feb 2025 18:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:22.156540
- Title: LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models
- Title(参考訳): LongWriter-V:視覚言語モデルにおける超長値・高忠実度生成の実現
- Authors: Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li,
- Abstract要約: LongWriter-V-22kは22,158のサンプルのデータセットで、複数の入力イメージ、命令、0から10,000ワードまでの出力がある。
提案するIterDPOは,長い出力をセグメントに分割し,反復補正を用いて元の出力と好みのペアを形成する。
LongWriter-V-22kとIterDPOでトレーニングした7Bパラメータモデルは、ベンチマークで素晴らしいパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 60.79418872734049
- License:
- Abstract: Existing Large Vision-Language Models (LVLMs) can process inputs with context lengths up to 128k visual and text tokens, yet they struggle to generate coherent outputs beyond 1,000 words. We find that the primary limitation is the absence of long output examples during supervised fine-tuning (SFT). To tackle this issue, we introduce LongWriter-V-22k, a SFT dataset comprising 22,158 examples, each with multiple input images, an instruction, and corresponding outputs ranging from 0 to 10,000 words. Moreover, to achieve long outputs that maintain high-fidelity to the input images, we employ Direct Preference Optimization (DPO) to the SFT model. Given the high cost of collecting human feedback for lengthy outputs (e.g., 3,000 words), we propose IterDPO, which breaks long outputs into segments and uses iterative corrections to form preference pairs with the original outputs. Additionally, we develop MMLongBench-Write, a benchmark featuring six tasks to evaluate the long-generation capabilities of VLMs. Our 7B parameter model, trained with LongWriter-V-22k and IterDPO, achieves impressive performance on this benchmark, outperforming larger proprietary models like GPT-4o. Code and data: https://github.com/THU-KEG/LongWriter-V
- Abstract(参考訳): 既存のLVLM(Large Vision-Language Models)は、コンテキスト長が最大128kの視覚およびテキストトークンで入力を処理することができるが、1000ワードを超えるコヒーレントな出力を生成するのに苦労している。
主な制限は、教師付き微調整(SFT)中に長い出力例がないことである。
この問題に対処するため,22,158個のサンプルからなるSFTデータセットであるLongWriter-V-22kを紹介した。
さらに、入力画像に対する高忠実性を維持するための長い出力を実現するために、SFTモデルにDPO(Direct Preference Optimization)を用いる。
長大な出力(例えば3,000語)に対する人間のフィードバックを収集するコストが高くなると、長い出力をセグメントに分割し、反復補正を用いて元の出力と好みのペアを形成するIterDPOを提案する。
さらに,VLMの長期能力を評価するための6つのタスクを含むベンチマークであるMMLongBench-Writeを開発した。
LongWriter-V-22kとIterDPOでトレーニングした7Bパラメータモデルは、このベンチマークで素晴らしいパフォーマンスを実現し、GPT-4oのようなより大きなプロプライエタリモデルよりも優れています。
コードとデータ:https://github.com/THU-KEG/LongWriter-V
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs [57.23637303451716]
LLM(Long context large language model)は、最大10000のトークンを処理できるが、2000ワードを超える出力を生成するのに苦労する。
我々は,超長期タスクをサブタスクに分解するエージェントベースのパイプラインであるAgentWriteを紹介する。
出力長が2kから32kのSFTデータを含むデータセットであるLongWriter-6kを構築した。
論文 参考訳(メタデータ) (2024-08-13T17:46:12Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Do Long-Range Language Models Actually Use Long-Range Context? [27.084888397778823]
言語モデルは一般的に、短絡した入力シーケンスに基づいて訓練される。
近年の自己注意の効率向上に向けた取り組みは、長距離トランスフォーマー言語モデルの普及につながっている。
論文 参考訳(メタデータ) (2021-09-19T12:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。