論文の概要: Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.15271v1
- Date: Mon, 21 Apr 2025 17:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:52:11.969182
- Title: Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
- Title(参考訳): イーグル2.5:フロンティアビジョンランゲージモデルのための長期トレーニングの強化
- Authors: Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu,
- Abstract要約: 長文マルチモーダル学習のためのフロンティア視覚言語モデル(VLM)のファミリーであるEagle 2.5を紹介する。
我々の研究は、長いビデオ理解と高解像度画像理解の課題に対処する。
本稿では,ストーリーレベルのアノテーションとクリップレベルのアノテーションを統合した新しいデータセットであるEagle-Video-110Kを提案する。
- 参考スコア(独自算出の注目度): 90.10322077894033
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Eagle 2.5, a family of frontier vision-language models (VLMs) for long-context multimodal learning. Our work addresses the challenges in long video comprehension and high-resolution image understanding, introducing a generalist framework for both tasks. The proposed training framework incorporates Automatic Degrade Sampling and Image Area Preservation, two techniques that preserve contextual integrity and visual details. The framework also includes numerous efficiency optimizations in the pipeline for long-context data training. Finally, we propose Eagle-Video-110K, a novel dataset that integrates both story-level and clip-level annotations, facilitating long-video understanding. Eagle 2.5 demonstrates substantial improvements on long-context multimodal benchmarks, providing a robust solution to the limitations of existing VLMs. Notably, our best model Eagle 2.5-8B achieves 72.4% on Video-MME with 512 input frames, matching the results of top-tier commercial model such as GPT-4o and large-scale open-source models like Qwen2.5-VL-72B and InternVL2.5-78B.
- Abstract(参考訳): 長文マルチモーダル学習のためのフロンティア視覚言語モデル(VLM)のファミリーであるEagle 2.5を紹介する。
本研究は,ビデオ理解と高解像度画像理解における課題に対処し,両タスクに汎用的なフレームワークを導入する。
提案するトレーニングフレームワークには,コンテキスト整合性と視覚的詳細性を保持する2つのテクニックであるAutomatic Degrade Smplingと Image Area Preservationが組み込まれている。
このフレームワークには、長期のコンテキストデータトレーニングのための多くの効率最適化も含まれている。
最後に,ストーリーレベルのアノテーションとクリップレベルのアノテーションを統合した新しいデータセットであるEagle-Video-110Kを提案する。
Eagle 2.5は、長いコンテキストのマルチモーダルベンチマークを大幅に改善し、既存のVLMの制限に対する堅牢なソリューションを提供する。
特に,私たちのベストモデルであるEagle 2.5-8Bは,GPT-4oやQwen2.5-VL-72BやInternVL2.5-78Bといった大規模オープンソースモデルなど,上位レベルの商用モデルと一致して,ビデオMMEの72.4%を512入力フレームで達成しています。
関連論文リスト
- LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding [29.719450799231705]
VLM(Vision-Language Models)は、多フレーム入力によってフレームレベルの理解能力を得る。
ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、視覚機能内の時間的関係をキャプチャするが、高品質のビデオテキストデータセットの不足によって制限される。
本稿では,クエリ・アテンション・ビデオ圧縮機構を備えた新しい手法である軽量ビデオ圧縮(LVC)を提案する。
論文 参考訳(メタデータ) (2025-04-09T12:51:10Z) - SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding [70.84791600974337]
ビデオ大言語モデル(LLM)のファミリーであるSlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。
2ストリームのSlowFastメカニズムを合理化されたトレーニングパイプラインに組み込む。
我々は、公開データセットのみを慎重にキュレートしたデータ混合を用いて、共同でビデオイメージトレーニングを行う。
論文 参考訳(メタデータ) (2025-03-24T17:59:07Z) - AMD-Hummingbird: Towards an Efficient Text-to-Video Model [12.09360569154206]
テキスト・トゥ・ビデオ(T2V)生成は、テキスト記述からリアルな映像を合成する能力において大きな注目を集めている。
以前の作業のほとんどは、現実のデプロイメントに適した、より小さく、より効率的なモデルの必要性を見越しながら、視覚的忠実さを優先している。
本稿では,Hummingbirdと呼ばれる軽量なT2Vフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T11:13:33Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z) - GIRAFFE: Design Choices for Extending the Context Length of Visual Language Models [20.976319536167512]
我々は、視覚言語モデルの長期的性能を高める効果的なソリューションを確立することを目指している。
本稿では, 有効長が128Kまで拡張されたジリンを提案する。
コード、データ、モデルをオープンソースにします。
論文 参考訳(メタデータ) (2024-12-17T09:57:21Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。
LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z) - InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output [138.18086961321146]
InternLM-XComposer-2.5 (IXC-2.5) は、長文入力と出力をサポートする汎用的な大規模言語モデルである。
IXC-2.5は様々なテキストイメージの理解と構成の応用に優れる。
IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-07-03T17:59:21Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。