Fugu-MT 論文翻訳(概要): ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

論文の概要: ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

arxiv url: http://arxiv.org/abs/2401.13311v1
Date: Wed, 24 Jan 2024 09:07:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 15:09:09.842474
Title: ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
Title（参考訳）: ConTextual:大規模マルチモーダルモデルにおけるコンテキスト感性テキストリッチビジュアル推論の評価
Authors: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
Abstract要約: 本稿では、文脈に敏感なテキストリッチな視覚的推論を行うLMMの能力を評価するための新しいベンチマークであるConTextualを紹介する。 LMM, GPT-4V(ision), 人体能力の30.8%に有意な差が認められた。
参考スコア（独自算出の注目度）: 101.16192912740595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in AI have led to the development of large multimodal models (LMMs) capable of processing complex tasks involving joint reasoning over text and visual content in the image (e.g., navigating maps in public places). This paper introduces ConTextual, a novel benchmark comprising instructions designed explicitly to evaluate LMMs' ability to perform context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse real-world scenarios (e.g., time-reading, navigation, shopping and more) demanding a deeper understanding of the interactions between textual and visual elements. Our findings reveal a significant performance gap of 30.8% between the best-performing LMM, GPT-4V(ision), and human capabilities using human evaluation indicating substantial room for improvement in context-sensitive text-rich visual reasoning. Notably, while GPT-4V excelled in abstract categories like meme and quote interpretation, its overall performance still lagged behind humans. In addition to human evaluations, we also employed automatic evaluation metrics using GPT-4, uncovering similar trends in performance disparities. We also perform a fine-grained evaluation across diverse visual contexts and provide qualitative analysis which provides a robust framework for future advancements in the LMM design. https://con-textual.github.io/
Abstract（参考訳）: aiの最近の進歩は、画像中のテキストとビジュアルコンテンツ(例えば、公共の場所で地図をナビゲートするなど)による共同推論を含む複雑なタスクを処理できる大規模なマルチモーダルモデル(lmm)の開発につながった。本稿では,文脈に敏感なテキストリッチな視覚推論を行うLMMの能力を評価するために設計された命令からなる新しいベンチマークであるConTextualを紹介する。 ConTextualは、様々な現実世界のシナリオ(例えば、タイムリーディング、ナビゲーション、ショッピングなど)を強調し、テキストとビジュアル要素間の相互作用をより深く理解する必要がある。以上の結果より,LMM,GPT-4V(ision)と人間の能力との間に30.8%の有意な性能差が認められた。特に、gpt-4vはミームや引用解釈のような抽象的なカテゴリーで優れているが、全体的な性能は依然として人間より劣っていた。また,人的評価に加えて,GPT-4を用いた自動評価指標を用いて,同様の性能格差の傾向を明らかにした。また,様々な視覚的コンテキストをまたいで詳細な評価を行い,lmm設計の今後の発展にロバストなフレームワークを提供する質的分析を提供する。 https://con-textual.github.io/

関連論文リスト

VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文参考訳（メタデータ） (2025-04-30T14:19:29Z)
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
InsightVision: A Comprehensive, Multi-Level Chinese-based Benchmark for Evaluating Implicit Visual Semantics in Large Vision Language Models [30.986157664865534]
画像中の暗黙の意味の理解を評価するための,総合的,多レベルな中国語ベースのベンチマークを初めて紹介する。このベンチマークは、表面レベルのコンテンツ理解、象徴的な意味解釈、背景知識理解、暗黙的な意味理解の4つのサブタスクに分類される。このベンチマークを用いて、15個のオープンソースの大規模視覚言語モデル (LVLM) と GPT-4o を評価し、人間のパフォーマンスに最も優れたモデルラグでさえ、暗黙的な意味を理解するのに約14%遅れていることを明らかにする。
論文参考訳（メタデータ） (2025-02-19T13:42:37Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-11-22T06:46:37Z)
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文参考訳（メタデータ） (2023-08-18T18:58:54Z)
Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文参考訳（メタデータ） (2023-05-11T17:45:16Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Efficient Multi-Modal Embeddings from Structured Data [0.0]
マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。ビジュアルグラウンドは言語アプリケーションにも貢献できる。新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
論文参考訳（メタデータ） (2021-10-06T08:42:09Z)
Probing Contextual Language Models for Common Ground with Visual Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文参考訳（メタデータ） (2020-05-01T21:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。