Fugu-MT 論文翻訳(概要): How to Train Your Long-Context Visual Document Model

論文の概要: How to Train Your Long-Context Visual Document Model

arxiv url: http://arxiv.org/abs/2602.15257v1
Date: Mon, 16 Feb 2026 23:26:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-18 16:03:17.936996
Title: How to Train Your Long-Context Visual Document Model
Title（参考訳）: 長期のビジュアルドキュメントモデルのトレーニング方法
Authors: Austin Veselka,
Abstract要約: 本研究は,344Kの文脈における長文視覚言語モデルの訓練に関する総合的かつ大規模な研究である。 MMLongBenchDocの両パラメータスケールに対する最先端性能を実現する。テキストから視覚への長いコンテキストの変換を逆に拡張し、視覚的長期のコンテキストのトレーニングが長いコンテキストのテキストのパフォーマンスに転送されることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the first comprehensive, large-scale study of training long-context vision language models up to 344K context, targeting long-document visual question answering with measured transfer to long-context text. While several such strong are open-weight, namely Qwen3 VL and GLM 4.5/6V, their training recipes and data pipelines are not reproducible. We systematically study continued pretraining, supervised finetuning, and preference optimization for 24B and 32B parameter models, backed by extensive LC evaluations and ablations to bridge this gap, and achieve state-of-the-art performance on MMLongBenchDoc for both parameter scales. In addition to this, our key findings include: (i) training on context lengths that match evaluation context lengths outperforms training on longer contexts, (ii) training and evaluating with page indices provides a simple, high-impact boost to long-document performance, (iii) our synthetic data pipelines enable self-improvement via continued pretraining and supervised finetuning, and (iv) we extend the known text-to-visual long context transfer to the reverse, showing that visual long context training transfers to long-context text performance. We also release MMLBD-C, a manually corrected version of MMLongBenchDoc to reduce erroneous and low quality examples in the benchmark.
Abstract（参考訳）: 本稿では,344Kの文脈における長文視覚言語モデルの学習を総合的かつ大規模に実施し,長文テキストへの移動を計測した長文視覚質問応答を目標とした。このような強いものは、Qwen3 VLやGLM 4.5/6Vといったオープンウェイトであるが、それらのトレーニングレシピやデータパイプラインは再現できない。我々は,24Bおよび32Bパラメータモデルの事前学習,教師付き微調整,選好最適化の継続を系統的に検討し,このギャップを埋めるLC評価と改善を背景として,両パラメータスケールにおけるMMLongBenchDocの最先端性能を実現した。これに加えて、我々の重要な発見は以下のとおりである。 (i)評価コンテキスト長に適合する文脈長のトレーニングは、より長い文脈でのトレーニングより優れる。 (II)ページインデックスによるトレーニングと評価は、文書の長期化をシンプルかつ高インパクトで促進する。三合成データパイプラインは、継続事前学習及び教師付き微調整による自己改善を可能にする。 (4) テキストから視覚への長いコンテキストの変換を逆に拡張し、視覚的長期のコンテキストのトレーニングが長文のテキストのパフォーマンスに転送されることを示す。また、MMLongBenchDocのマニュアル修正版であるMMLBD-Cをリリースし、ベンチマークにおける不正かつ低品質な例を減らす。

関連論文リスト

Document Reconstruction Unlocks Scalable Long-Context RLVR [60.74632963522131]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の機能強化(長文)のための重要なパラダイムとなっている。我々は,LLMの長期的文脈能力を高めるための教師なしのアプローチについて検討し,重度の人的アノテーションや教師モデルの監督の必要性を排除した。提案手法の有効性をRULERとLongBenchv2の2つのベンチマークで検証した。
論文参考訳（メタデータ） (2026-02-09T03:23:23Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文参考訳（メタデータ） (2024-06-04T17:59:25Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。データマイニングフレームワーク textbfProLong を提案する。複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文参考訳（メタデータ） (2024-05-28T07:36:56Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)
Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文参考訳（メタデータ） (2022-09-21T00:41:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。