論文の概要: mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning
- arxiv url: http://arxiv.org/abs/2404.01548v1
- Date: Tue, 2 Apr 2024 01:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 18:27:47.618591
- Title: mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning
- Title(参考訳): mChartQA:ビジョンランゲージアライメントと推論に基づくマルチモーダルチャート質問回答の普遍的ベンチマーク
- Authors: Jingxuan Wei, Nan Xu, Guiyong Chang, Yin Luo, BiHui Yu, Ruifeng Guo,
- Abstract要約: 本稿では,新しいマルチモーダルチャート質問応答モデルを提案する。
我々のモデルは、既存の手法の制約を克服し、視覚的および言語的処理を統合する。
このアプローチは、複数のパブリックデータセット上での優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 8.1113308714581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the fields of computer vision and natural language processing, multimodal chart question-answering, especially involving color, structure, and textless charts, poses significant challenges. Traditional methods, which typically involve either direct multimodal processing or a table-to-text conversion followed by language model analysis, have limitations in effectively handling these complex scenarios. This paper introduces a novel multimodal chart question-answering model, specifically designed to address these intricate tasks. Our model integrates visual and linguistic processing, overcoming the constraints of existing methods. We adopt a dual-phase training approach: the initial phase focuses on aligning image and text representations, while the subsequent phase concentrates on optimizing the model's interpretative and analytical abilities in chart-related queries. This approach has demonstrated superior performance on multiple public datasets, particularly in handling color, structure, and textless chart questions, indicating its effectiveness in complex multimodal tasks.
- Abstract(参考訳): コンピュータビジョンと自然言語処理の分野では、特に色、構造、テキストレスチャートを含むマルチモーダルチャートの問合せが大きな課題となっている。
通常、直接マルチモーダル処理やテーブル・トゥ・テキスト変換、言語モデル解析を含む従来の手法は、これらの複雑なシナリオを効果的に扱うのに制限がある。
本稿では,これらの複雑な課題に対処するために特別に設計された,新しいマルチモーダルチャート質問応答モデルを提案する。
我々のモデルは、既存の手法の制約を克服し、視覚的および言語的処理を統合する。
初期フェーズは画像とテキスト表現の整合に焦点を合わせ、その後フェーズは、チャート関連クエリにおけるモデルの解釈的および分析的能力の最適化に集中する。
このアプローチは、複数の公開データセット、特に色、構造、テキストレスチャートの質問に優れた性能を示し、複雑なマルチモーダルタスクにおけるその有効性を示している。
関連論文リスト
- Scalable Representation Learning for Multimodal Tabular Transactions [14.18267117657451]
これらの課題に対して、革新的でスケーラブルなソリューションを提示します。
トランザクションとテキストのモダリティをインターリーブするパラメータ効率の良いデコーダを提案する。
我々は,大規模な合成決済トランザクションデータセット上でのソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-10T12:18:42Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Prompting Large Vision-Language Models for Compositional Reasoning [12.908633583017359]
本研究では,大規模な視覚言語モデルに画像の描写を促し,合成推論を行う新しい生成手法を提案する。
提案手法は,Winogroundデータセット上の他の埋め込み手法よりも優れており,最適記述によって拡張された場合,最大10%の精度が向上する。
論文 参考訳(メタデータ) (2024-01-20T22:04:28Z) - Multi-modal Latent Space Learning for Chain-of-Thought Reasoning in
Language Models [25.058162782167503]
CoT推論(Chain-of-thinkt)は、複雑なタスクの解決と質問に答えるための言語モデルにおいて、素晴らしいパフォーマンスを示している。
本稿では,言語思考に整合した効果的な画像特徴を生成するために,拡散過程による潜時空間学習を利用するマルチモーダルCoT推論の新しい手法を提案する。
提案手法は画像特徴とテキスト表現を深いレベルで融合し,マルチモーダルCoTの複雑な推論能力を向上させる。
論文 参考訳(メタデータ) (2023-12-14T09:13:09Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。