論文の概要: MMLongCite: A Benchmark for Evaluating Fidelity of Long-Context Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.13276v1
- Date: Wed, 15 Oct 2025 08:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.568365
- Title: MMLongCite: A Benchmark for Evaluating Fidelity of Long-Context Vision-Language Models
- Title(参考訳): MMLongCite:長期ビジョンランゲージモデルの忠実度評価ベンチマーク
- Authors: Keyan Zhou, Zecheng Tang, Lingfeng Ming, Guanghao Zhou, Qiguang Chen, Dan Qiao, Zheming Yang, Libo Qin, Minghui Qiu, Juntao Li, Min Zhang,
- Abstract要約: 長文シナリオにおけるLVLMの忠実度を評価するためのベンチマークであるMMLongCiteを紹介する。
MMLongCiteは6つのコンテキストの長さ間隔にまたがる8つのタスクから構成されており、テキスト、画像、ビデオを含む様々なモダリティが組み込まれている。
最先端のLVLMの評価は、長いマルチモーダルコンテキストを扱う際の忠実度に限界があることを明らかにする。
- 参考スコア(独自算出の注目度): 60.01080454274115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large vision language models (LVLMs) has led to a significant expansion of their context windows. However, an extended context window does not guarantee the effective utilization of the context, posing a critical challenge for real-world applications. Current evaluations of such long-context faithfulness are predominantly focused on the text-only domain, while multimodal assessments remain limited to short contexts. To bridge this gap, we introduce MMLongCite, a comprehensive benchmark designed to evaluate the fidelity of LVLMs in long-context scenarios. MMLongCite comprises 8 distinct tasks spanning 6 context length intervals and incorporates diverse modalities, including text, images, and videos. Our evaluation of state-of-the-art LVLMs reveals their limited faithfulness in handling long multimodal contexts. Furthermore, we provide an in-depth analysis of how context length and the position of crucial content affect the faithfulness of these models.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の急速な進歩により、コンテキストウィンドウが大幅に拡張された。
しかし、拡張されたコンテキストウィンドウは、コンテキストの効果的な利用を保証せず、現実世界のアプリケーションにとって重要な課題となっている。
このような長文忠実性の現在の評価はテキストのみに重点を置いているのに対して、マルチモーダル評価は短い文脈に限られている。
このギャップを埋めるために,LVLMの長文シナリオにおける忠実度を評価するための総合ベンチマークであるMMLongCiteを導入する。
MMLongCiteは6つのコンテキストの長さ間隔にまたがる8つのタスクから構成されており、テキスト、画像、ビデオを含む様々なモダリティが組み込まれている。
最先端のLVLMの評価は、長いマルチモーダルコンテキストを扱う際の忠実度に限界があることを明らかにする。
さらに、文脈長と重要な内容の位置がこれらのモデルの忠実度にどのように影響するかを詳細に分析する。
関連論文リスト
- Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。
そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-25T17:59:09Z) - FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding [32.197113821638936]
我々は,新しいLong-Context Large Language Model (FltLM)を提案する。
FltLMはコンテキストフィルタをソフトマスク機構に組み込み、関連する情報に集中するために無関係な内容を特定し、動的に排除する。
実験の結果,複雑なQAシナリオにおいて,FltLMは教師付き微調整法や検索法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T13:47:50Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [86.93099925711388]
長い文脈内での物語的推論に特化したデータセットである textbfDetectiveQA を提案する。
100万以上のトークンを平均化する探偵小説を活用して、中国語と英語の両方で1200人の注釈付き質問を含むデータセットを作成します。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。
LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文 参考訳(メタデータ) (2024-06-24T17:58:03Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。