論文の概要: PyFi: Toward Pyramid-like Financial Image Understanding for VLMs via Adversarial Agents
- arxiv url: http://arxiv.org/abs/2512.14735v1
- Date: Thu, 11 Dec 2025 06:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.700629
- Title: PyFi: Toward Pyramid-like Financial Image Understanding for VLMs via Adversarial Agents
- Title(参考訳): PyFi: 敵対的エージェントによるVLMのピラミッド的財務イメージ理解に向けて
- Authors: Yuqun Zhang, Yuxuan Zhao, Sijia Chen,
- Abstract要約: PyFiはピラミッドのような金融画像理解のためのフレームワークで、視覚言語モデルによって、プログレッシブでシンプルで複雑な方法で質問チェーンを通して推論することができる。
PyFiのコアとなるPyFi-600Kは、600万の金銭的質問応答ペアからなるデータセットで、推論ピラミッドにまとめられている。
金融分野における先進視覚言語モデルの細粒度、階層的、包括的評価について述べる。
- 参考スコア(独自算出の注目度): 18.083176457953833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes PyFi, a novel framework for pyramid-like financial image understanding that enables vision language models (VLMs) to reason through question chains in a progressive, simple-to-complex manner. At the core of PyFi is PyFi-600K, a dataset comprising 600K financial question-answer pairs organized into a reasoning pyramid: questions at the base require only basic perception, while those toward the apex demand increasing levels of capability in financial visual understanding and expertise. This data is scalable because it is synthesized without human annotations, using PyFi-adv, a multi-agent adversarial mechanism under the Monte Carlo Tree Search (MCTS) paradigm, in which, for each image, a challenger agent competes with a solver agent by generating question chains that progressively probe deeper capability levels in financial visual reasoning. Leveraging this dataset, we present fine-grained, hierarchical, and comprehensive evaluations of advanced VLMs in the financial domain. Moreover, fine-tuning Qwen2.5-VL-3B and Qwen2.5-VL-7B on the pyramid-structured question chains enables these models to answer complex financial questions by decomposing them into sub-questions with gradually increasing reasoning demands, yielding average accuracy improvements of 19.52% and 8.06%, respectively, on the dataset. All resources of code, dataset and models are available at: https://github.com/AgenticFinLab/PyFi .
- Abstract(参考訳): 本稿では,ピラミッド型金融画像理解のための新しいフレームワークであるPyFiを提案する。
PyFiのコアとなるPyFi-600Kは、600万の金銭的質問と回答のペアからなるデータセットで、推論ピラミッドにまとめられている。
PyFi-advはモンテカルロ木探索(MCTS)パラダイムの下で、各画像に対して、チャレンジャーエージェントが、金融視覚的推論においてより深い能力レベルを段階的に探索する質問チェーンを生成することで、問題解決エージェントと競合するマルチエージェントのメカニズムである。
このデータセットを利用して、金融分野における先進的VLMの細粒度、階層的、包括的評価を行う。
さらに、ピラミッド構造された質問チェーン上のQwen2.5-VL-3BとQwen2.5-VL-7Bの微調整により、これらのモデルは、徐々に推理要求が増加し、それぞれ19.52%と8.06%の平均精度が向上し、複雑な金融問題に答えることができる。
コード、データセット、モデルのすべてのリソースは、https://github.com/AgenticFinLab/PyFi で利用可能である。
関連論文リスト
- XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning [28.967959142733903]
金融問題の解決における大規模言語モデルの能力を評価するための新しいベンチマークであるXFinBenchを紹介する。
O1は67.3%の精度で最高性能のテキストのみのモデルであるが、それでも12.5%の人間専門家にはかなり遅れている。
我々は,知識増強分析のための3,032の財務用語を持つ知識銀行を構築し,関連する知識が小さなオープンソースモデルに一貫した精度の向上をもたらすことを発見した。
論文 参考訳(メタデータ) (2025-08-20T15:23:35Z) - FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [82.7292329605713]
FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。
12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。
FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T06:44:42Z) - FinTextQA: A Dataset for Long-form Financial Question Answering [10.1084081290893]
FinTextQAは金融における長文質問応答(LFQA)のための新しいデータセットである。
我々のデータセット上で最も効果的なシステム構成は、組込み器、レトリバー、リランカー、ジェネレータをAda2、Automated Merged Retrieval、Bge-Reranker-Base、Baichuan2-7Bとして設定することであった。
論文 参考訳(メタデータ) (2024-05-16T10:53:31Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。