Fugu-MT 論文翻訳(概要): CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart

論文の概要: CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart

arxiv url: http://arxiv.org/abs/2410.21414v1
Date: Mon, 28 Oct 2024 18:13:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.548019
Title: CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart
Title（参考訳）: CT2C-QA:中国語のテキスト、表、チャートに関するマルチモーダルな質問
Authors: Bowen Zhao, Tianhao Cheng, Yuejie Zhang, Ying Cheng, Rui Feng, Xiaobo Zhang,
Abstract要約: C$textT2$C-QAは中国の推論に基づくQAデータセットであり、テキスト、テーブル、チャートの広範なコレクションを含んでいる。我々のデータセットは、実際のWebページをシミュレートし、マルチモーダルデータを用いてモデルを分析し、推論する能力の優れたテストとして役立ちます。
参考スコア（独自算出の注目度）: 26.54501344351476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Question Answering (MMQA) is crucial as it enables comprehensive understanding and accurate responses by integrating insights from diverse data representations such as tables, charts, and text. Most existing researches in MMQA only focus on two modalities such as image-text QA, table-text QA and chart-text QA, and there remains a notable scarcity in studies that investigate the joint analysis of text, tables, and charts. In this paper, we present C$\text{T}^2$C-QA, a pioneering Chinese reasoning-based QA dataset that includes an extensive collection of text, tables, and charts, meticulously compiled from 200 selectively sourced webpages. Our dataset simulates real webpages and serves as a great test for the capability of the model to analyze and reason with multimodal data, because the answer to a question could appear in various modalities, or even potentially not exist at all. Additionally, we present AED (\textbf{A}llocating, \textbf{E}xpert and \textbf{D}esicion), a multi-agent system implemented through collaborative deployment, information interaction, and collective decision-making among different agents. Specifically, the Assignment Agent is in charge of selecting and activating expert agents, including those proficient in text, tables, and charts. The Decision Agent bears the responsibility of delivering the final verdict, drawing upon the analytical insights provided by these expert agents. We execute a comprehensive analysis, comparing AED with various state-of-the-art models in MMQA, including GPT-4. The experimental outcomes demonstrate that current methodologies, including GPT-4, are yet to meet the benchmarks set by our dataset.
Abstract（参考訳）: MMQA(Multimodal Question Answering)は、テーブル、チャート、テキストなどの多様なデータ表現からの洞察を統合することで、包括的な理解と正確な応答を可能にするため、重要である。 MMQAの既存の研究は、画像テキストQA、表テキストQA、チャートテキストQAの2つのモードにのみ焦点をあてており、テキスト、表、チャートの合同分析を調査する研究は、依然として顕著に乏しい。本稿では,C$\text{T}^2$C-QAについて述べる。C$\text{T}^2$C-QAは中国語の推論に基づくQAデータセットである。我々のデータセットは、実際のWebページをシミュレートし、モデルがマルチモーダルデータを用いて分析し、推論する能力の優れたテストとして役立ちます。 AED(\textbf{A}llocating, \textbf{E}xpert and \textbf{D}esicion)は, エージェント間の協調的な配置, 情報インタラクション, 集団的意思決定によって実装されたマルチエージェントシステムである。具体的には、アサインメントエージェントは、テキスト、テーブル、チャートの熟練者を含む専門家エージェントを選定し、活性化する役割を担っている。決定エージェントは、これらの専門家が提供した分析的な洞察に基づいて、最終判断を下す責任を負う。 GPT-4を含むMMQAの各種技術モデルとAEDを比較し,包括的解析を行う。実験結果から, GPT-4を含む現在の手法は, データセットが設定したベンチマークをまだ満たしていないことが明らかとなった。

関連論文リスト

Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。 MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。 MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文参考訳（メタデータ） (2025-07-25T03:58:07Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文参考訳（メタデータ） (2024-07-12T16:37:59Z)
TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文参考訳（メタデータ） (2024-05-13T14:07:20Z)
SPRING: Situated Conversation Agent Pretrained with Multimodal Questions from Incremental Layout Graph [16.275155481031348]
Incremental Layout Graph (SPRing) を用いた多モーダル質問を学習した特定対話エージェントを提案する。プレトレーニングで使用するQAペアはすべて、新規なインクリメンタルレイアウトグラフ(ILG)から生成される。実験により,SPRINGの有効性が検証され,SIMMC 1.0とSIMMC 2.0の両方のデータセットに対する最先端のアプローチを著しく上回っていることが示された。
論文参考訳（メタデータ） (2023-01-05T08:03:47Z)
Mixed-modality Representation Learning and Pre-training for Joint Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。検索中心の混合モード合成事前学習を行う。 OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文参考訳（メタデータ） (2022-10-11T07:04:39Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
HeteroQA: Learning towards Question-and-Answering through Multiple Information Sources via Heterogeneous Graph Modeling [50.39787601462344]
コミュニティ質問回答(Community Question Answering, CQA)は、Eコマースやオンラインユーザコミュニティなど、多くのシナリオで利用することができる、明確に定義されたタスクである。 CQAの手法のほとんどは、知識を抽出し、ユーザの質問に答えるために記事やウィキペディアしか含まない。ユーザコミュニティに複数の情報ソース(MIS)を組み込んで回答を自動的に生成する問合せ対応の異種グラフ変換器を提案する。
論文参考訳（メタデータ） (2021-12-27T10:16:43Z)
MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文参考訳（メタデータ） (2021-12-03T14:05:52Z)
TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文参考訳（メタデータ） (2021-05-17T06:12:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。