論文の概要: Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
- arxiv url: http://arxiv.org/abs/2509.16944v1
- Date: Sun, 21 Sep 2025 06:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.048359
- Title: Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
- Title(参考訳): 詳細:細粒化MLLM知覚のための自己蒸留型RoI予測器
- Authors: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、微細な知覚を行うために高解像度の視覚情報を必要とする。
近年の手法では、RoI(Rerea-of-Interest)メカニズムを活用して、健全な領域に焦点をあてている。
本稿では,このトレードオフを解決する効率的な自己拡張型地域提案ネットワーク(SD-RPN)を提案する。
- 参考スコア(独自算出の注目度): 43.40677219802473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations.To validate our approach, we integrate the framework into the LLaVA-1.5 architecture. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、微細な知覚を行うために高精細な視覚情報を必要とするが、高精細画像全体の処理は計算的に禁止されている。
トレーニングベースのアプローチは大規模なアノテートデータセットに依存しているのに対して、モデルの内部の注意を利用するトレーニングなしの手法は計算的に非効率で正確ではないため、マルチパスのプリフィルステージか、遅い自己回帰的デコードプロセスに依存する必要がある。
本稿では,このトレードオフを解消する効率的な自己拡張型地域提案ネットワーク(SD-RPN)を提案する。
SD-RPNは、ノイズの多いアテンションマップをMLLMの中層から高品質の擬似RoIラベルに変換するパイプラインを中心に構築され、シグナルを明示的にノイズ化し、曖昧さを解消する。
我々はこれらのラベルを使って、より正確なローカライゼーションを学習する軽量な地域提案ネットワーク(RPN)を訓練する。
このRPNはシングルフォワードパスのRoIをMLLMの中間層の機能を用いて予測し、自動回帰生成からRoI識別を分離し、コストのかかるマルチパス操作を回避し、我々のアプローチを検証するために、フレームワークをLLaVA-1.5アーキテクチャに統合する。
少数の(例えば10K)質問-回答ペアでのみトレーニングされているにもかかわらず、この手法は例外的なデータ効率と一般化を示し、TextVQA、DocVQA、V-Starを含む未確認ベンチマークにおいて10%以上の絶対精度の向上を実現している。
本研究は,MLLMの微粒化知覚を高めるための実用的でスケーラブルなソリューションを提案する。
コードはhttps://github.com/YuHengsss/SD-RPN.comで入手できる。
関連論文リスト
- EDFFDNet: Towards Accurate and Efficient Unsupervised Multi-Grid Image Registration [17.190325630307097]
本稿では指数デカイ基底関数を用いた自由形変形を用いた指数デカイ自由形変形ネットワーク(EDFFDNet)を提案する。
密接な相互作用をスパースなものにすることで、ASMAはパラメータを減らし、精度を向上させる。
EDFFDNetは、パラメータ、メモリ、総ランタイムをそれぞれ70.5%、32.6%、33.7%削減することを示した。
EDFFDNet-2はより少ない計算コストを維持しながらPSNRを1.06dB改善する。
論文 参考訳(メタデータ) (2025-09-09T12:30:51Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Region-based Non-local Operation for Video Classification [11.746833714322154]
本稿では,地域別非局所的(RNL)操作を自己注意機構のファミリーとして提案する。
チャネルアテンションモジュールと提案したRNLを組み合わせることで,市販のCNNに組み込んだアテンションチェーンを設計し,エンドツーエンドのトレーニングを行う。
提案手法の実験結果は,他の注意機構よりも優れており,Something V1データセット上での最先端性能を実現している。
論文 参考訳(メタデータ) (2020-07-17T14:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。