論文の概要: ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in
Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2401.13311v1
- Date: Wed, 24 Jan 2024 09:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:09:09.842474
- Title: ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in
Large Multimodal Models
- Title(参考訳): ConTextual:大規模マルチモーダルモデルにおけるコンテキスト感性テキストリッチビジュアル推論の評価
- Authors: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
- Abstract要約: 本稿では、文脈に敏感なテキストリッチな視覚的推論を行うLMMの能力を評価するための新しいベンチマークであるConTextualを紹介する。
LMM, GPT-4V(ision), 人体能力の30.8%に有意な差が認められた。
- 参考スコア(独自算出の注目度): 101.16192912740595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/
- Abstract(参考訳): aiの最近の進歩は、画像中のテキストとビジュアルコンテンツ(例えば、公共の場所で地図をナビゲートするなど)による共同推論を含む複雑なタスクを処理できる大規模なマルチモーダルモデル(lmm)の開発につながった。
本稿では,文脈に敏感なテキストリッチな視覚推論を行うLMMの能力を評価するために設計された命令からなる新しいベンチマークであるConTextualを紹介する。
ConTextualは、様々な現実世界のシナリオ(例えば、タイムリーディング、ナビゲーション、ショッピングなど)を強調し、テキストとビジュアル要素間の相互作用をより深く理解する必要がある。
以上の結果より,LMM,GPT-4V(ision)と人間の能力との間に30.8%の有意な性能差が認められた。
特に、gpt-4vはミームや引用解釈のような抽象的なカテゴリーで優れているが、全体的な性能は依然として人間より劣っていた。
また,人的評価に加えて,GPT-4を用いた自動評価指標を用いて,同様の性能格差の傾向を明らかにした。
また,様々な視覚的コンテキストをまたいで詳細な評価を行い,lmm設計の今後の発展にロバストなフレームワークを提供する質的分析を提供する。
https://con-textual.github.io/
関連論文リスト
- FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文 参考訳(メタデータ) (2023-05-11T17:45:16Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Efficient Multi-Modal Embeddings from Structured Data [0.0]
マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。
ビジュアルグラウンドは言語アプリケーションにも貢献できる。
新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
論文 参考訳(メタデータ) (2021-10-06T08:42:09Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。