論文の概要: ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in
Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2401.13311v1
- Date: Wed, 24 Jan 2024 09:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:09:09.842474
- Title: ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in
Large Multimodal Models
- Title(参考訳): ConTextual:大規模マルチモーダルモデルにおけるコンテキスト感性テキストリッチビジュアル推論の評価
- Authors: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
- Abstract要約: 本稿では、文脈に敏感なテキストリッチな視覚的推論を行うLMMの能力を評価するための新しいベンチマークであるConTextualを紹介する。
LMM, GPT-4V(ision), 人体能力の30.8%に有意な差が認められた。
- 参考スコア(独自算出の注目度): 101.16192912740595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/
- Abstract(参考訳): aiの最近の進歩は、画像中のテキストとビジュアルコンテンツ(例えば、公共の場所で地図をナビゲートするなど)による共同推論を含む複雑なタスクを処理できる大規模なマルチモーダルモデル(lmm)の開発につながった。
本稿では,文脈に敏感なテキストリッチな視覚推論を行うLMMの能力を評価するために設計された命令からなる新しいベンチマークであるConTextualを紹介する。
ConTextualは、様々な現実世界のシナリオ(例えば、タイムリーディング、ナビゲーション、ショッピングなど)を強調し、テキストとビジュアル要素間の相互作用をより深く理解する必要がある。
以上の結果より,LMM,GPT-4V(ision)と人間の能力との間に30.8%の有意な性能差が認められた。
特に、gpt-4vはミームや引用解釈のような抽象的なカテゴリーで優れているが、全体的な性能は依然として人間より劣っていた。
また,人的評価に加えて,GPT-4を用いた自動評価指標を用いて,同様の性能格差の傾向を明らかにした。
また,様々な視覚的コンテキストをまたいで詳細な評価を行い,lmm設計の今後の発展にロバストなフレームワークを提供する質的分析を提供する。
https://con-textual.github.io/
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for
Multimodal Large Language Models [60.27894243926344]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Can Large Multimodal Models Uncover Deep Semantics Behind Images? [31.541610325408975]
本稿では,大規模マルチモーダルモデルの視覚的深層セマンティクス能力を評価するための総合ベンチマークであるDEEPEVALを紹介する。
本評価は,既存のLMMと人間との深い意味理解能力の差を顕著に示すものである。
例えば、GPT-4Vは、画像記述において人間に比較可能な性能を達成するにもかかわらず、深い意味論を理解する上で、人間よりも30%遅れている。
論文 参考訳(メタデータ) (2024-02-17T13:41:44Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。