論文の概要: Detached Skip-Links and $R$-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR
- arxiv url: http://arxiv.org/abs/2603.20020v1
- Date: Fri, 20 Mar 2026 15:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.195822
- Title: Detached Skip-Links and $R$-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR
- Title(参考訳): 切り離されたスキップリンクと$R$-Probe:MLLM OCRの勾配伝播による特徴集約の分離
- Authors: Ziye Yuan, Ruchang Yao, Chengxin Zheng, Yusheng Zhao, Daxiang Dong, Ming Zhang,
- Abstract要約: マルチモーダル・大規模言語モデル(MLLM)は、詳細な視覚的詳細が損なわれ、不一致であるOCRタスクにおいて、高レベルの推論では優れているが失敗する。
共同トレーニング中にスキップ分岐を停止しながら前方パスの浅い特徴を再利用する最小限の修正であるデタッチ・スキップリンクを提案する。
我々のアプローチは、OCR中心のベンチマークを一貫して改善し、一般的なマルチモーダルタスクにおいて明確なゲインを提供する。
- 参考スコア(独自算出の注目度): 10.20222455728069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) excel at high-level reasoning yet fail on OCR tasks where fine-grained visual details are compromised or misaligned. We identify an overlooked optimization issue in multi-layer feature fusion. Skip pathways introduce direct back-propagation paths from high-level semantic objectives to early visual layers. This mechanism overwrites low-level signals and destabilizes training. To mitigate this gradient interference, we propose Detached Skip-Links, a minimal modification that reuses shallow features in the forward pass while stopping gradients through the skip branch during joint training. This asymmetric design reduces gradient interference, improving stability and convergence without adding learnable parameters. To diagnose whether fine-grained information is preserved and usable by an LLM, we introduce $R$-Probe, which measures pixel-level reconstructability of projected visual tokens using a shallow decoder initialized from the first quarter of the LLM layers. Across multiple ViT backbones and multimodal benchmarks, and at scales up to 7M training samples, our approach consistently improves OCR-centric benchmarks and delivers clear gains on general multimodal tasks.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)は、詳細な視覚的詳細が損なわれ、不一致であるOCRタスクにおいて、高レベルの推論では優れているが失敗する。
多層機能融合における過度な最適化問題を特定する。
スキップパスは、ハイレベルなセマンティックな目的から初期の視覚層への直接のバックプロパゲーションパスを導入する。
このメカニズムは低レベルの信号を上書きし、トレーニングを不安定にする。
この勾配の干渉を軽減するために,前部パスの浅い特徴を再利用する最小限の修正点であるDetached Skip-Linksを提案する。
この非対称設計は、勾配の干渉を低減し、学習可能なパラメータを追加することなく安定性と収束を改善する。
LLM層の最初の4分の1から初期化した浅層デコーダを用いて、投影された視覚トークンの画素レベルの再構成可能性を測定するR$-Probeを導入する。
複数のViTバックボーンとマルチモーダルベンチマークにまたがって、最大700万のトレーニングサンプルをスケールアップすることで、OCR中心のベンチマークを継続的に改善し、一般的なマルチモーダルタスクに対して明確なゲインを提供する。
関連論文リスト
- Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers [31.67315012315044]
我々は,多層LLM隠蔽状態を体系的に整理する軽量ゲートを備えた統一正規化凸核融合フレームワークを提案する。
実験は、より優れた条件付け戦略としてDepth-wise Semantic Routingを確立する。
純粋に時間的な融合は、視覚発生の忠実度をパラドックス的に低下させる可能性がある。
論文 参考訳(メタデータ) (2026-02-03T13:30:13Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - LSTM-MAS: A Long Short-Term Memory Inspired Multi-Agent System for Long-Context Understanding [24.027208865014064]
長い言語モデル(LLM)は、誤りの蓄積と幻覚の伝播のために処理が困難である。
我々はLSTM-MASと呼ばれるマルチエージェントシステムを設計し、LSTMの階層的な情報フローと長文理解のためのゲートメモリ機構をエミュレートする。
また,NarrativeQA,Qasper,HotpotQA,MuSiQueでは,それぞれ40.93%,43.70%,121.57%,33.12%の改善を実現している。
論文 参考訳(メタデータ) (2026-01-17T05:16:23Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - BrainMCLIP: Brain Image Decoding with Multi-Layer feature Fusion of CLIP [30.357835048979954]
本稿では,人間の視覚系の機能的階層によって導かれるパラメータ効率・多層融合手法の先駆者であるBrainMCLIPを紹介する。
BrainMCLIPは機能的に異なる視覚領域からのfMRI信号を対応する中間層と最終層に整列し、機能的階層を尊重する。
結果から,BrainMCLIPは高い競争力,特に高レベルのセマンティックメトリクスに優れることがわかった。
論文 参考訳(メタデータ) (2025-10-22T07:51:52Z) - CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects [2.321156185872456]
マルチスケール機能拡張と適応最適化を統合した新しいアーキテクチャであるE-FPN-BSを提案する。
第一に、私たちのContext Enhancement Module(CEM)は、効率的なグローバルな融合のために高レベルな特徴を整列し、圧縮するためにデュアルブランチ処理を採用している。
第2に、フォアグラウンド-バックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間ゲーティングマスクを生成する。
論文 参考訳(メタデータ) (2025-06-11T16:13:38Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。