論文の概要: Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations
- arxiv url: http://arxiv.org/abs/2501.04675v1
- Date: Wed, 08 Jan 2025 18:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:57:07.088855
- Title: Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations
- Title(参考訳): 中間構造表現を用いた視覚言語モデルにおける財務VQAの強化
- Authors: Archita Srivastava, Abhas Kumar, Rajesh Kumar, Prabhakar Srinivasan,
- Abstract要約: 本研究では,プロットやチャートの画像を線形化テーブルに変換するモダリティ変換モジュールであるDEPLOTの微調整について検討する。
データセットは、単純な、積み重ねられた、グループ化されたバーチャートで構成され、これらの視覚化のユニークな構造的特徴をターゲットにしている。
大規模言語モデル(LLM)の推論能力をさらに探求するため,質問応答セットと組み合わせた100のバーチャート画像の追加セットをキュレートする。
- 参考スコア(独自算出の注目度): 1.770767758587368
- License:
- Abstract: Chart interpretation is crucial for visual data analysis, but accurately extracting information from charts poses significant challenges for automated models. This study investigates the fine-tuning of DEPLOT, a modality conversion module that translates the image of a plot or chart to a linearized table, on a custom dataset of 50,000 bar charts. The dataset comprises simple, stacked, and grouped bar charts, targeting the unique structural features of these visualizations. The finetuned DEPLOT model is evaluated against its base version using a test set of 1,000 images and two metrics: Relative Mapping Similarity (RMS), which measures categorical mapping accuracy, and Relative Number Set Similarity (RNSS), which evaluates numerical interpretation accuracy. To further explore the reasoning capabilities of large language models (LLMs), we curate an additional set of 100 bar chart images paired with question answer sets. Our findings demonstrate that providing a structured intermediate table alongside the image significantly enhances LLM reasoning performance compared to direct image queries.
- Abstract(参考訳): チャートの解釈は視覚的なデータ分析には不可欠だが、グラフから正確に情報を抽出することは、自動化されたモデルにとって重要な課題である。
本研究では,プロットやチャートの画像を線形化されたテーブルに変換するモダリティ変換モジュールであるDEPLOTの,5万バーチャートのカスタムデータセット上での微調整について検討した。
データセットは、単純な、積み重ねられた、グループ化されたバーチャートで構成され、これらの視覚化のユニークな構造的特徴をターゲットにしている。
微調整DPLOTモデルは,1000枚の画像と2つのメトリクスからなるテストセットを用いて,分類的マッピングの精度を測定する相対マッピング類似度(RMS)と,数値解釈の精度を評価する相対数セット類似度(RNSS)を用いて,ベースバージョンに対して評価する。
大規模言語モデル(LLM)の推論能力をさらに探求するため,質問応答セットと組み合わせた100のバーチャート画像の追加セットをキュレートする。
本研究は, 画像とともに構造化された中間テーブルを提供することにより, 直接画像クエリと比較してLLM推論性能が著しく向上することを示した。
関連論文リスト
- Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - RealCQA-V2 : Visual Premise Proving A Manual COT Dataset for Charts [2.9201864249313383]
グラフ質問応答のプロセスを洗練するための新しいタスクであるVisual Premise Provingを紹介する。
この手法は従来の精度に基づく評価手法から逸脱したものである。
データ検索とグラフの構造的理解の両方に習熟性を示すモデルが提案される。
論文 参考訳(メタデータ) (2024-10-29T19:32:53Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。