論文の概要: JSynFlow: Japanese Synthesised Flowchart Visual Question Answering Dataset built with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.04142v1
- Date: Wed, 04 Feb 2026 02:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.340288
- Title: JSynFlow: Japanese Synthesised Flowchart Visual Question Answering Dataset built with Large Language Models
- Title(参考訳): JSynFlow:大規模言語モデルを用いた日本語合成フローチャート視覚質問回答データセット
- Authors: Hiroshi Sasaki,
- Abstract要約: JSynFlowは日本のフローチャートのための合成ビジュアルQAデータセットである。
本稿では、データセットの手順を詳述し、JSynFlowによる微調整により、VLMの性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 0.609170287691728
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision and language models (VLMs) are expected to analyse complex documents, such as those containing flowcharts, through a question-answering (QA) interface. The ability to recognise and interpret these flowcharts is in high demand, as they provide valuable insights unavailable in text-only explanations. However, developing VLMs with precise flowchart understanding requires large-scale datasets of flowchart images and corresponding text, the creation of which is highly time-consuming. To address this challenge, we introduce JSynFlow, a synthesised visual QA dataset for Japanese flowcharts, generated using large language models (LLMs). Our dataset comprises task descriptions for various business occupations, the corresponding flowchart images rendered from domain-specific language (DSL) code, and related QA pairs. This paper details the dataset's synthesis procedure and demonstrates that fine-tuning with JSynFlow significantly improves VLM performance on flowchart-based QA tasks. Our dataset is publicly available at https://huggingface.co/datasets/jri-advtechlab/jsynflow.
- Abstract(参考訳): 視覚と言語モデル (VLM) は、質問応答 (QA) インタフェースを通じてフローチャートを含む複雑な文書を分析することが期待されている。
これらのフローチャートを認識・解釈する能力は、テキストのみの説明では利用できない貴重な洞察を提供するため、要求が高い。
しかし、正確なフローチャート理解を伴うVLMの開発には、フローチャート画像と対応するテキストの大規模なデータセットが必要である。
この課題に対処するために,大規模言語モデル(LLM)を用いて生成した日本語フローチャートのための合成ビジュアルQAデータセットであるJSynFlowを紹介した。
本データセットは,ドメイン固有言語(DSL)コードから描画されるフローチャート画像,関連するQAペアのタスク記述から構成される。
本稿では、データセットの合成手順を詳述し、JSynFlowによる微調整により、フローチャートベースのQAタスクにおけるVLM性能が大幅に向上することを示す。
私たちのデータセットはhttps://huggingface.co/datasets/jri-advtechlab/jsynflowで公開されています。
関連論文リスト
- A Graph-based Approach for Multi-Modal Question Answering from Flowcharts in Telecom Documents [0.619840955350879]
技術的文書からの質問回答は、フローチャートやフロー図のような数字に答えが存在する質問を含むことが多い。
我々は,VLM(Visual Large Language Models)から得られたフローチャートのグラフ表現を活用し,それをテキストベースRAGシステムに組み込んで,通信領域におけるQAの画像検索を可能にすることを示す。
論文 参考訳(メタデータ) (2025-07-25T07:36:13Z) - Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents [106.04963073116468]
フローチャートは意思決定プロセスを視覚化するための重要なツールです。
視覚言語モデルは、これらの図を分析する際に、存在しない接続や決定経路を幻覚させる。
LLM応答を参照してフローチャートを接地する特定の成分をトレースするフローチャートについて紹介する。
本稿では, グラフベースの推論により微細なホック帰属を行うニューロシンボリック・エージェントであるFlowPathAgentを提案する。
論文 参考訳(メタデータ) (2025-06-02T06:02:41Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。
ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding [52.35520385083425]
FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
論文 参考訳(メタデータ) (2024-07-06T20:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。