論文の概要: Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data
- arxiv url: http://arxiv.org/abs/2503.16260v1
- Date: Thu, 20 Mar 2025 15:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:47.724056
- Title: Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data
- Title(参考訳): 関数の連鎖: 細粒度グラフ推論データのためのプログラムパイプライン
- Authors: Zijian Li, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Rui Wang,
- Abstract要約: 既存の手法では(M)LLMをデータ生成に利用しているが、直接的プロンプトによって精度と多様性が制限されることが多い。
我々は,自由探索された推論経路を監督として利用する新しいプログラム推論データ生成パイプラインであるtextitChain of Function (CoF)を提案する。
textitCoFは複数の利点を提供している: 1) 精度: 関数支配生成は、フリーフォーム生成と比較して幻覚を減少させる; 2) 多様性: 関数鎖を列挙するということは、様々な質問を可能にする; 3) 説明可能性: 関数鎖は、組込みの合理性として機能し、全体的な正確性を超えたきめ細かい評価を可能にする; 4) 実践性: 信頼の排除
- 参考スコア(独自算出の注目度): 17.17642905547469
- License:
- Abstract: Visual reasoning is crucial for multimodal large language models (MLLMs) to address complex chart queries, yet high-quality rationale data remains scarce. Existing methods leveraged (M)LLMs for data generation, but direct prompting often yields limited precision and diversity. In this paper, we propose \textit{Chain of Functions (CoF)}, a novel programmatic reasoning data generation pipeline that utilizes freely-explored reasoning paths as supervision to ensure data precision and diversity. Specifically, it starts with human-free exploration among the atomic functions (e.g., maximum data and arithmetic operations) to generate diverse function chains, which are then translated into linguistic rationales and questions with only a moderate open-sourced LLM. \textit{CoF} provides multiple benefits: 1) Precision: function-governed generation reduces hallucinations compared to freeform generation; 2) Diversity: enumerating function chains enables varied question taxonomies; 3) Explainability: function chains serve as built-in rationales, allowing fine-grained evaluation beyond overall accuracy; 4) Practicality: eliminating reliance on extremely large models. Employing \textit{CoF}, we construct the \textit{ChartCoF} dataset, with 1.4k complex reasoning Q\&A for fine-grained analysis and 50k Q\&A for reasoning enhancement. The fine-grained evaluation on \textit{ChartCoF} reveals varying performance across question taxonomies for each MLLM, and the experiments also show that finetuning with \textit{ChartCoF} achieves state-of-the-art performance among same-scale MLLMs on widely used benchmarks. Furthermore, the novel paradigm of function-governed rationale generation in \textit{CoF} could inspire broader applications beyond charts.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)では、複雑なチャートクエリに対処するために視覚的推論が不可欠であるが、高品質な論理データはほとんど残っていない。
既存の手法では(M)LLMをデータ生成に利用しているが、直接的プロンプトによって精度と多様性が制限されることが多い。
本稿では,データ精度と多様性を確保するために,自由探索型推論経路を利用した新しいプログラム推論データ生成パイプラインである‘textit{Chain of Function(CoF)’を提案する。
具体的には、原子関数(例えば、最大データと算術演算)間の人間の自由な探索から始まり、多様な関数連鎖を生成し、その後、適度なオープンソース LLM で言語的論理と疑問に変換される。
textit{CoF} は複数の利点を提供する。
1) 精度:機能支配世代は、フリーフォーム生成と比較して幻覚を減少させる。
2)多様性:機能連鎖を列挙することにより,多様な質問分類が可能となる。
3) 説明可能性: 関数連鎖は,全体の正確性を超えたきめ細かい評価を可能にする,組込みの合理性として機能する。
4) 実用性: 極めて大規模なモデルへの依存を排除すること。
textit{CoF} を用いて,細粒度解析のための 1.4k 複素推論Q\&A と推論強化のための 50k Q\&A のデータセットを構築した。
また, MLLM毎の問合せ分類において, 詳細な評価を行った結果, 広く使用されているベンチマークにおいて, 同じスケールのMLLM間でのファインタニングにより, 最先端のMLLMの性能が向上することが確認された。
さらに、 {textit{CoF} における関数支配的理性生成という新しいパラダイムは、チャートを超えて幅広い応用を刺激する可能性がある。
関連論文リスト
- Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - GLIMMER: Incorporating Graph and Lexical Features in Unsupervised Multi-Document Summarization [13.61818620609812]
我々はGLIMMERと呼ばれる軽量で効果的な非教師付きアプローチを提案し、グラフとLexIcalの特徴をベースとした教師なしマルチ文書要約手法を提案する。
まず、ソース文書から文グラフを構築し、それからテキストから低レベルの特徴をマイニングすることで意味クラスタを自動的に識別する。
また,Multi-News,Multi-XScience,DUC-2004で行った実験により,既存の教師なしアプローチよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-19T16:01:48Z) - GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文 参考訳(メタデータ) (2024-06-20T17:57:51Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。