論文の概要: Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning
- arxiv url: http://arxiv.org/abs/2505.19702v1
- Date: Mon, 26 May 2025 08:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.300853
- Title: Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning
- Title(参考訳): Point-RFT:視覚的強化ファインタニングによるマルチモーダル推論の改善
- Authors: Minheng Ni, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Kevin Lin, Wangmeng Zuo, Lijuan Wang,
- Abstract要約: 我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。
提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。
ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
- 参考スコア(独自算出の注目度): 122.81815833343026
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models have significantly improved textual reasoning through the effective use of Chain-of-Thought (CoT) and reinforcement learning. However, extending these successes to vision-language tasks remains challenging due to inherent limitations in text-only CoT, such as visual hallucinations and insufficient multimodal integration. In this paper, we introduce Point-RFT, a multimodal reasoning framework explicitly designed to leverage visually grounded CoT reasoning for visual document understanding. Our approach consists of two stages: First, we conduct format finetuning using a curated dataset of 71K diverse visual reasoning problems, each annotated with detailed, step-by-step rationales explicitly grounded to corresponding visual elements. Second, we employ reinforcement finetuning targeting visual document understanding. On ChartQA, our approach improves accuracy from 70.88% (format-finetuned baseline) to 90.04%, surpassing the 83.92% accuracy achieved by reinforcement finetuning relying solely on text-based CoT. The result shows that our grounded CoT is more effective for multimodal reasoning compared with the text-only CoT. Moreover, Point-RFT exhibits superior generalization capability across several out-of-domain visual document reasoning benchmarks, including CharXiv, PlotQA, IconQA, TabMWP, etc., and highlights its potential in complex real-world scenarios.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、Chain-of-Thought(CoT)と強化学習を効果的に活用することで、テキスト推論を大幅に改善した。
しかし、視覚幻覚やマルチモーダル統合の不足など、テキストのみのCoTに固有の制限があるため、これらの成功を視覚言語タスクに拡張することは依然として困難である。
本稿では、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介する。
提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。
第2に、視覚的文書理解を目的とした強化微調整を用いる。
ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(形式的微細化ベースライン)から90.04%に向上させる。
その結果,テキストのみのCoTに比べて,地上のCoTの方がマルチモーダル推論に有効であることが示唆された。
さらに、Point-RFTはCharXiv、PlotQA、IconQA、TabMWPなど、いくつかのドメイン外のビジュアルドキュメント推論ベンチマークよりも優れた一般化能力を示し、複雑な現実のシナリオにおけるその可能性を強調している。
関連論文リスト
- Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning [19.28434717501445]
視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たす。
既存の手法は、チェーン・オブ・ソートによる微調整によるVLM推論を改善する。
我々は新しい強化微調整フレームワークReason-RFTを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Re-evaluating the Need for Multimodal Signals in Unsupervised Grammar Induction [119.07444667700473]
近年の研究では、マルチモーダルな学習インプットが文法誘導を改善することが示されている。
LC-PCFGと呼ぶ強力なテキストのみのベースラインを設計する。
LC-PCFGは、最先端のマルチモーダル文法誘導法と比較して最大17%改善したコーパスF1を提供する。
論文 参考訳(メタデータ) (2022-12-20T18:59:50Z) - Cosine meets Softmax: A tough-to-beat baseline for visual grounding [17.316608734530124]
本フレームワークは,テキスト埋め込みによる複数画像ROI特徴間のコサイン距離におけるクロスエントロピー損失を最小限に抑える。
Talk2Carデータセットで実験を行い、68.7%のAP50精度を実現した。
論文 参考訳(メタデータ) (2020-09-13T19:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。