論文の概要: Chart Deep Research in LVLMs via Parallel Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.06677v1
- Date: Tue, 03 Mar 2026 14:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.786299
- Title: Chart Deep Research in LVLMs via Parallel Relative Policy Optimization
- Title(参考訳): 並列相対的政策最適化によるLVLMのチャートディープリサーチ
- Authors: Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen,
- Abstract要約: 現在のグラフデータインテリジェンスには、深い研究能力に重大な制限がある。
本稿では,データ型間で報酬次元と能力の並列最適化を行うPRPOを提案する。
MCDR-Benchは, 主観的生成評価を客観的な誤り識別に変換する。
- 参考スコア(独自算出の注目度): 39.633965546999605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of data science, charts have evolved from simple numerical presentation tools to essential instruments for insight discovery and decision-making support. However, current chart data intelligence exhibits significant limitations in deep research capabilities, with existing methods predominantly addressing shallow tasks such as visual recognition or factual question-answering, rather than the complex reasoning and high-level data analysis that deep research requires. This limitation stems from two primary technical bottlenecks: at the training level, existing post-training techniques exhibit deficiencies in handling multi-dimensional reward signal interference and heterogeneous data gradient conflicts, preventing models from achieving balanced development across multiple capability dimensions; at the evaluation level, current methods remain limited to factual retrieval and basic computation, failing to assess end-to-end analytic reasoning and other deep research capabilities. To address the training challenge, we propose PRPO, which performs parallel optimization across reward dimensions and capability partitioning across data types, effectively disentangling conflicts between heterogeneous data and multi-dimensional reward signals while ensuring optimization stability. For the evaluation challenge, we construct MCDR-Bench based on the ``error uniqueness principle," transforming subjective generation assessment into objective error identification through controllable error injection, enabling quantifiable evaluation of deep research capabilities. Experimental validation confirms that the proposed PRPO and MCDR-Bench jointly establish a unified framework that systematically advances chart deep research through enhanced collaborative training and objective evaluation.
- Abstract(参考訳): データサイエンスの急速な進歩により、チャートは単純な数値的なプレゼンテーションツールから、洞察発見と意思決定支援のための重要な道具へと進化してきた。
しかし、現在のグラフデータインテリジェンスは、深層研究に必要な複雑な推論やハイレベルなデータ分析よりも、視覚的認識や現実的な質問応答といった浅いタスクに主に対処する既存の手法によって、深層研究能力に重大な制限が示されている。
この制限は、トレーニングレベルでは、既存のポストトレーニング技術は、多次元の報酬信号干渉と不均一なデータ勾配競合の処理に欠陥を示し、モデルが複数の能力次元にわたってバランスの取れた開発を達成するのを防ぎ、評価レベルでは、現在の手法は、事実検索と基本的な計算に限られており、エンドツーエンドの分析的推論や、その他の深い研究能力の評価に失敗している、という2つの主要な技術的ボトルネックに起因している。
トレーニング課題に対処するために,PRPOを提案する。このPRPOは,報酬次元を並列に最適化し,データ型を並列に分割し,不均一なデータと多次元報酬信号の競合を効果的に解消し,最適化安定性を確保する。
評価課題として, MCDR-Benchを「エラー一意性原理」に基づいて構築し, 主観的生成評価を制御可能な誤差注入により客観的な誤り識別に変換することにより, 深層研究能力の定量評価を可能にする。
実験的な検証により,提案したPRPOとMCDR-Benchが共同で,協調学習と客観的評価の強化を通じて,チャートの深層研究を体系的に進める統一的な枠組みを確立することが確認された。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Technical Report: Facilitating the Adoption of Causal Inference Methods Through LLM-Empowered Co-Pilot [44.336297829718795]
CATE-Bは,大規模言語モデル(LLM)をエージェントフレームワーク内で使用して,治療効果推定を通じてユーザを誘導する,オープンソースのコパイロットシステムである。
CATE-B は (i) 因果発見と LLM に基づくエッジオリエンテーションによる構造因果モデルの構築、 (ii) 因果構造とデータセット特性に適合した適切な回帰方法を選択することによるロバストな調整セットの同定を支援する。
論文 参考訳(メタデータ) (2025-08-14T12:20:51Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - The role of data partitioning on the performance of EEG-based deep learning models in supervised cross-subject analysis: a preliminary study [37.69303106863453]
ディープラーニングは、非常に非線形なパターンを効果的に発見することによって、脳波(EEG)データの解析を進めています。
ドメイン内に適切なデータパーティショニングとクロスバリデーションのための包括的なガイドラインは存在しない。
本稿では,脳波深層学習モデルの評価におけるデータ分割とクロスバリデーションの役割について,徹底的に検討する。
論文 参考訳(メタデータ) (2025-05-19T12:05:28Z) - Graph Neural Network-Driven Hierarchical Mining for Complex Imbalanced Data [0.8246494848934447]
本研究では,高次元不均衡データの階層的マイニングフレームワークを提案する。
データセットの構造化グラフ表現を構築し、グラフニューラルネットワークの埋め込みを統合することにより、提案手法は、サンプル間のグローバルな相互依存性を効果的にキャプチャする。
複数の実験シナリオにまたがる実証実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-02-06T06:26:41Z) - Data Collaboration Analysis with Orthonormal Basis Selection and Alignment [2.928964540437144]
Data Collaboration (DC)は、複数のパーティがプライベートデータセットを公開することなく、モデルを共同でトレーニングすることを可能にする。
既存の理論は、秘密の基地と同じ部分空間にまたがる任意の標的基底は十分であると主張する。
我々は、秘密ベースとターゲットベースの両方で正規性制約を明示的に強制する新しいDCフレームワークであるOrthonormal Data Collaboration(ODC)を紹介する。
論文 参考訳(メタデータ) (2024-03-05T08:52:16Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。