論文の概要: MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
- arxiv url: http://arxiv.org/abs/2505.10610v2
- Date: Mon, 26 May 2025 21:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.123148
- Title: MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
- Title(参考訳): MMLongBench: 長期ビジョンランゲージモデルのベンチマークを効果的かつ正確に行う
- Authors: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman,
- Abstract要約: 長文視覚言語モデル(LCVLM)は、数百の画像を1つのフォワードパスでインターリーブされたテキストトークンで処理することができる。
MMLongBenchは、様々な長いコンテキストの視覚言語タスクをカバーする最初のベンチマークである。
- 参考スコア(独自算出の注目度): 55.14191042936519
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rapid extension of context windows in large vision-language models has given rise to long-context vision-language models (LCVLMs), which are capable of handling hundreds of images with interleaved text tokens in a single forward pass. In this work, we introduce MMLongBench, the first benchmark covering a diverse set of long-context vision-language tasks, to evaluate LCVLMs effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning five different categories of downstream tasks, such as Visual RAG and Many-Shot ICL. It also provides broad coverage of image types, including various natural and synthetic images. To assess the robustness of the models to different input lengths, all examples are delivered at five standardized input lengths (8K-128K tokens) via a cross-modal tokenization scheme that combines vision patches and text tokens. Through a thorough benchmarking of 46 closed-source and open-source LCVLMs, we provide a comprehensive analysis of the current models' vision-language long-context ability. Our results show that: i) performance on a single task is a weak proxy for overall long-context capability; ii) both closed-source and open-source models face challenges in long-context vision-language tasks, indicating substantial room for future improvement; iii) models with stronger reasoning ability tend to exhibit better long-context performance. By offering wide task coverage, various image types, and rigorous length control, MMLongBench provides the missing foundation for diagnosing and advancing the next generation of LCVLMs.
- Abstract(参考訳): 大規模視覚言語モデルにおけるコンテキストウィンドウの急速な拡張により、長いコンテキストビジョン言語モデル(LCVLM)が生まれ、単一の前方パスでインターリーブされたテキストトークンで数百の画像を扱うことができるようになった。
本研究では,LCVLMを効果的かつ徹底的に評価するために,多種多様な長文視覚言語タスクを対象とした最初のベンチマークであるMMLongBenchを紹介する。
MMLongBench は Visual RAG や Many-Shot ICL といった5つの下流タスクにまたがる 13,331 の例で構成されている。
また、様々な自然画像や合成画像を含む画像の種類を幅広くカバーしている。
モデルの堅牢性を異なる入力長に評価するために、すべての例は5つの標準入力長(8K-128Kトークン)で、視覚パッチとテキストトークンを組み合わせたクロスモーダルトークン化スキームを介して配信される。
46のクローズドソースおよびオープンソースLCVLMの徹底的なベンチマークを通じて、現在のモデルにおける視覚-言語長文能力の包括的分析を行う。
私たちの結果はこう示しています。
一 単一のタスクにおけるパフォーマンスは、全体的な長期的能力の弱いプロキシである。
二 クローズドソースモデル及びオープンソースモデルの両方が、長文視覚言語タスクにおいて課題に直面しており、将来的な改善の余地があること。
三 より強い推論能力を有するモデルは、より長い文脈性能を示す傾向がある。
幅広いタスクカバレッジ、様々なイメージタイプ、厳密な長さ制御を提供することで、MMLongBenchは次世代のLCVLMの診断と進歩のための欠落基盤を提供する。
関連論文リスト
- Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy [111.1291107651131]
Long-VITAは、長いコンテキストの視覚言語理解タスクのための大規模なマルチモーダルモデルである。
4Kフレームまたは1Mトークン上で、画像、ビデオ、テキストのモダリティを同時に処理し、分析するのに適している。
Long-VITAは完全に再現可能で、トレーニングとテストのためにNPUとGPUプラットフォームの両方をサポートする。
論文 参考訳(メタデータ) (2025-02-07T18:59:56Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。