論文の概要: PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration
- arxiv url: http://arxiv.org/abs/2602.19188v1
- Date: Sun, 22 Feb 2026 13:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.522758
- Title: PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration
- Title(参考訳): PositionOCR:ハイブリッドスペシャリスト統合によるマルチモーダルモデルにおける位置認識の向上
- Authors: Chen Duan, Zhentao Guo, Pei Fu, Zining Wang, Kai Zhou, Pengfei Yan,
- Abstract要約: 本研究では,テキストスポッティングモデルの強みをLLMの文脈的推論とシームレスに統合するパラメータ効率の高いハイブリッドアーキテクチャであるPlaceOCRを紹介する。
このフレームワークは、特にテキストグラウンドやテキストスポッティングといったタスクに優れた、優れたマルチモーダル処理能力を示す。
- 参考スコア(独自算出の注目度): 17.887453138676964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Multi-modal Large Language Models (MLLMs) have achieved strong performance in OCR-centric Visual Question Answering (VQA) tasks, illustrating their capability to process heterogeneous data and exhibit adaptability across varied contexts. However, these MLLMs rely on a Large Language Model (LLM) as the decoder, which is primarily designed for linguistic processing, and thus inherently lacks the positional reasoning required for precise visual tasks, such as text spotting and text grounding. Additionally, the extensive parameters of MLLMs necessitate substantial computational resources and large-scale data for effective training. Conversely, text spotting specialists achieve state-of-the-art coordinate predictions but lack semantic reasoning capabilities. This dichotomy motivates our key research question: Can we synergize the efficiency of specialists with the contextual power of LLMs to create a positionally-accurate MLLM? To overcome these challenges, we introduce PositionOCR, a parameter-efficient hybrid architecture that seamlessly integrates a text spotting model's positional strengths with an LLM's contextual reasoning. Comprising 131M trainable parameters, this framework demonstrates outstanding multi-modal processing capabilities, particularly excelling in tasks such as text grounding and text spotting, consistently surpassing traditional MLLMs.
- Abstract(参考訳): 近年、多モード大言語モデル(MLLM)は、OCR中心の視覚質問応答(VQA)タスクにおいて、不均一なデータを処理し、さまざまなコンテキストにわたって適応性を示す能力を示し、強力なパフォーマンスを実現している。
しかし、これらのMLLMは言語処理用に主に設計されたデコーダとしてLarge Language Model (LLM) に依存しており、したがってテキストスポッティングやテキストグラウンドティングのような正確な視覚的タスクに必要な位置推論を本質的に欠いている。
さらに、MLLMの広範なパラメータは、効果的なトレーニングのために、かなりの計算資源と大規模データを必要とする。
逆に、テキストスポッティングの専門家は最先端のコーディネート予測を達成しているが、意味論的推論能力は欠如している。
この二分法は、我々の重要な研究課題を動機付けている: LLMの文脈的力と専門家の効率を相乗化して、位置精度のMLLMを作ることができるか?
これらの課題を克服するために,テキストスポッティングモデルの強度をLLMの文脈的推論とシームレスに統合するパラメータ効率の高いハイブリッドアーキテクチャであるPlaceOCRを導入する。
131Mのトレーニング可能なパラメータを補完するこのフレームワークは、特にテキストグラウンドやテキストスポッティングといったタスクにおいて優れたマルチモーダル処理能力を示し、従来のMLLMを一貫して上回っている。
関連論文リスト
- Generative Giants, Retrieval Weaklings: Why do Multimodal Large Language Models Fail at Multimodal Retrieval? [8.45007357012084]
MLLMが有効なレトリバーとして機能することを妨げるメカニズムについて検討する。
解析の結果,MLLMの表現空間はテキストセマンティクスによって圧倒的に支配されていることが明らかとなった。
MLLMの類似性計算に最も寄与する特定の特徴成分は、実際に、検索性能を積極的に劣化させるトラクタであることがわかった。
論文 参考訳(メタデータ) (2025-12-22T07:36:20Z) - ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints [42.713620384054146]
本稿では,多段階空間推論能力の評価を目的とした新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。
パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
論文 参考訳(メタデータ) (2025-11-23T13:42:22Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - AgentPS: Agentic Process Supervision for Content Moderation with Multimodal LLMs [9.35901507816989]
本稿では,Agentic Process Supervisionを大規模言語モデルに統合するフレームワークであるAgentPSを紹介する。
我々は、AgentPSが、公開ベンチマークとプロプライエタリデータセットのベースラインMLLMよりも大幅に改善されていることを示す。
これらの結果は、大規模産業アプリケーションにおける複雑なマルチモーダル分類のためのスケーラブルで効果的なソリューションとして、AgentPSを確立している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。