Fugu-MT 論文翻訳(概要): OCR-Agent: Agentic OCR with Capability and Memory Reflection

論文の概要: OCR-Agent: Agentic OCR with Capability and Memory Reflection

arxiv url: http://arxiv.org/abs/2602.21053v1
Date: Tue, 24 Feb 2026 16:10:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.833447
Title: OCR-Agent: Agentic OCR with Capability and Memory Reflection
Title（参考訳）: OCR-Agent: 機能とメモリリフレクションを備えたエージェント型OCR
Authors: Shimin Wen, Zeyu Zhang, Xingdou Bian, Hongjie Zhu, Lulu He, Layi Shama, Daji Ergu, Ying Cai,
Abstract要約: VLM(Large Vision-Language Models)は、複雑な視覚理解タスクにおいて大きな可能性を証明している。本稿では,機能的リフレクションとメモリリフレクションという2つの重要な機能を備えたモデルを実現する,新しい反復自己補正フレームワークを提案する。挑戦的なOCRBench v2ベンチマークの実験によると、OCR-Agentは現在のオープンソースSOTAモデルであるInternVL3-8Bを英語で+2.0、中国語サブセットで+1.2で上回っている。
参考スコア（独自算出の注目度）: 5.8505408398110434
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Vision-Language Models (VLMs) have demonstrated significant potential on complex visual understanding tasks through iterative optimization methods.However, these models generally lack effective self-correction mechanisms, making it difficult for them to independently rectify cognitive biases. Consequently, during multi-turn revisions, they often fall into repetitive and ineffective attempts, failing to achieve stable improvements in answer quality.To address this issue, we propose a novel iterative self-correction framework that endows models with two key capabilities: Capability Reflection and Memory Reflection. This framework guides the model to first diagnose errors and generate a correction plan via Capability Reflection, then leverage Memory Reflection to review past attempts to avoid repetition and explore new solutions, and finally, optimize the answer through rigorous re-reasoning. Experiments on the challenging OCRBench v2 benchmark show that OCR-Agent outperforms the current open-source SOTA model InternVL3-8B by +2.0 on English and +1.2 on Chinese subsets, while achieving state-of-the-art results in Visual Understanding (79.9) and Reasoning (66.5) - surpassing even larger fine-tuned models. Our method demonstrates that structured, self-aware reflection can significantly enhance VLMs' reasoning robustness without additional training. Code: https://github.com/AIGeeksGroup/OCR-Agent.
Abstract（参考訳）: 大規模視覚言語モデル(VLM)は、反復的最適化手法によって複雑な視覚理解タスクにおいて有意なポテンシャルを示してきたが、これらのモデルは一般的に効果的な自己補正機構を欠いているため、認知バイアスを独立に修正することが困難である。その結果、多ターンリビジョンにおいて、しばしば反復的かつ非効率な試みに陥り、回答品質の安定した改善が得られず、この問題に対処するために、機能的リフレクションと記憶的リフレクションという2つの重要な機能を持つモデルを実現する、新しい反復的自己補正フレームワークを提案する。このフレームワークは、まずエラーを診断し、キャパビリティ・リフレクションを通じて修正計画を生成し、次にメモリ・リフレクションを活用して、繰り返しを避けるために過去の試みをレビューし、新しいソリューションを探索し、最後に厳密な再推論を通じて回答を最適化する。挑戦的なOCRBench v2ベンチマークの実験では、OCR-Agentは現在のオープンソースのSOTAモデルであるInternVL3-8Bを英語で+2.0、中国語のサブセットで+1.2で上回り、Visual Understanding (79.9) と Reasoning (66.5) はより大型の微調整モデルを上回る結果となった。提案手法は,構造化自己認識反射により,付加的なトレーニングを伴わずに,VLMの推論堅牢性を著しく向上させることができることを示す。コード:https://github.com/AIGeeksGroup/OCR-Agent

関連論文リスト

Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。 R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。 R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2026-03-02T17:20:10Z)
Teaching Large Reasoning Models Effective Reflection [62.73646680747003]
大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的なパフォーマンスを示している。しかし、すべてのリフレクションが有益であるとは限らない。まず,自己批判のみを用いてモデルの反射的推論能力を高める訓練フレームワークである自己批判ファインチューニング(SCFT)を提案する。
論文参考訳（メタデータ） (2026-01-19T04:51:53Z)
Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-27T10:37:11Z)
DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model [9.557159109747372]
大型視覚言語モデル(LVLM)は、入力画像に存在しない単語を生成する幻覚を引き起こす傾向がある。 DianJin-OCR-R1は、ドメイン固有のデータセットに基づいて訓練された推論とツールをインターリーブしたVLMである。
論文参考訳（メタデータ） (2025-08-18T03:28:57Z)
ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文参考訳（メタデータ） (2025-05-19T17:59:31Z)
Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。 RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。 AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。 Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文参考訳（メタデータ） (2025-01-20T11:46:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。