Fugu-MT 論文翻訳(概要): StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding

論文の概要: StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding

arxiv url: http://arxiv.org/abs/2309.11268v4
Date: Mon, 19 Feb 2024 03:48:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 05:44:21.815729
Title: StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding
Title（参考訳）: StructChart: 視覚チャート理解のための知覚、構造化、推論
Authors: Renqiu Xia, Bo Zhang, Haoyang Peng, Hancheng Ye, Xiangchao Yan, Peng Ye, Botian Shi, Yu Qiao, Junchi Yan
Abstract要約: 現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
参考スコア（独自算出の注目度）: 58.38480335579541
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Charts are common in literature across different scientific fields, conveying rich information easily accessible to readers. Current chart-related tasks focus on either chart perception which refers to extracting information from the visual charts, or performing reasoning given the extracted data, e.g. in a tabular form. In this paper, we aim to establish a unified and label-efficient learning paradigm for joint perception and reasoning tasks, which can be generally applicable to different downstream tasks, beyond the question-answering task as specifically studied in peer works. Specifically, StructChart first reformulates the chart information from the popular tubular form (specifically linearized CSV) to the proposed Structured Triplet Representations (STR), which is more friendly for reducing the task gap between chart perception and reasoning due to the employed structured information extraction for charts. We then propose a Structuring Chart-oriented Representation Metric (SCRM) to quantitatively evaluate the performance for the chart perception task. To enrich the dataset for training, we further explore the possibility of leveraging the Large Language Model (LLM), enhancing the chart diversity in terms of both chart visual style and its statistical information. Extensive experiments are conducted on various chart-related tasks, demonstrating the effectiveness and promising potential for a unified chart perception-reasoning paradigm to push the frontier of chart understanding.
Abstract（参考訳）: チャートは様々な科学分野の文献で一般的であり、読者に簡単にアクセス可能なリッチな情報を伝える。現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識、あるいはグラフ形式で抽出されたデータに対して推論を実行することに焦点を当てている。本稿では,ピアワークに特有な質問応答タスクを超えて,異なる下流タスクに広く適用可能な,統合的かつラベル効率の高い共同知覚と推論タスクの学習パラダイムを確立することを目的とする。具体的には、structchartはまず、チャート情報を人気のある管状形式(特に線形化されたcsv)から提案されている構造化三重項表現(str)に再構成する。次に、チャート認識タスクの性能を定量的に評価する構造化チャート指向表現尺度(SCRM)を提案する。学習用データセットを充実させるためには,Large Language Model (LLM)を活用する可能性をさらに検討し,チャートの視覚的スタイルと統計情報の両方の観点からチャートの多様性を高める。様々なチャート関連タスクに関する広範囲な実験が行われ、チャート理解のフロンティアを推進するために統一されたチャート知覚-合理化パラダイムの有効性と可能性を示している。

関連論文リスト

ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文参考訳（メタデータ） (2025-05-25T23:17:32Z)
RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳（メタデータ） (2025-03-29T15:50:08Z)
ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。 LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文参考訳（メタデータ） (2024-12-30T05:07:34Z)
AskChart: Universal Chart Understanding through Textual Enhancement [20.075911012193494]
最先端のアプローチは、主にチャートイメージからの視覚的手がかりに焦点を当て、チャート内に埋め込まれたリッチテキスト情報を明示的に組み込むことができない。 AskChartは、Mixture of Experts (MoE)アーキテクチャを用いて、チャートからテキストと視覚の両方のキューを明示的に統合するユニバーサルモデルである。
論文参考訳（メタデータ） (2024-12-26T09:59:43Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.19963543411396]
本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
論文参考訳（メタデータ） (2024-03-17T14:49:09Z)
ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning [28.204261069650897]
71Kチャートで生成した191K命令からなる新しいチャート固有視覚言語インストラクションフォローデータセットであるChartInstructを紹介した。 4つの下流タスクの実験において、まずモデルの有効性を示す。
論文参考訳（メタデータ） (2024-03-14T01:40:23Z)
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文参考訳（メタデータ） (2024-01-04T17:51:48Z)
ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文参考訳（メタデータ） (2023-11-27T15:20:23Z)
Enhanced Chart Understanding in Vision and Language Task via Cross-modal Pre-training on Plot Table Pairs [71.55796212450055]
本稿では、プロットテーブルペア上でのクロスモーダル事前学習を通じて、チャート画像からテーブル情報を解釈する方法を学ぶV+LモデルであるChartT5を紹介する。具体的には,MHP(Masked Header Prediction)とMVP(Masked Value Prediction)の2つの新しい事前学習目標を提案する。
論文参考訳（メタデータ） (2023-05-29T22:29:03Z)
UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。 UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。 i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文参考訳（メタデータ） (2023-05-24T06:11:17Z)
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文参考訳（メタデータ） (2023-04-05T00:25:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。