Fugu-MT 論文翻訳(概要): Latent Denoising Improves Visual Alignment in Large Multimodal Models

論文の概要: Latent Denoising Improves Visual Alignment in Large Multimodal Models

arxiv url: http://arxiv.org/abs/2604.21343v1
Date: Thu, 23 Apr 2026 06:58:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.342778
Title: Latent Denoising Improves Visual Alignment in Large Multimodal Models
Title（参考訳）: 大規模マルチモーダルモデルにおける遅延Denoisingによる視覚アライメントの改善
Authors: Dhruv Parikh, Jacob Fein-Ashley, Rajgopal Kannan, Viktor Prasanna,
Abstract要約: 大規模マルチモーダルモデル(LMM)は通常、自己回帰言語モデリングの目的で訓練される。高品質な視覚的トークン化器の学習における潜時認知の最近の進歩に触発されて,同じ原理が視覚的監督の効果的な形態を提供することを示す。
参考スコア（独自算出の注目度）: 4.273730624882391
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Multimodal Models (LMMs) such as LLaVA are typically trained with an autoregressive language modeling objective, providing only indirect supervision to visual tokens. This often yields weak internal visual representations and brittle behavior under distribution shift. Inspired by recent progress on latent denoising for learning high-quality visual tokenizers, we show that the same principle provides an effective form of visual supervision for improving internal visual feature alignment and multimodal understanding in LMMs. We propose a latent denoising framework that corrupts projected visual tokens using a saliency-aware mixture of masking and Gaussian noising. The LMM is trained to denoise these corrupted tokens by recovering clean teacher patch features from hidden states at a selected intermediate LLM layer using a decoder. To prevent representation collapse, our framework also preserves the teacher's intra-image similarity structure and applies intra-image contrastive patch distillation. During inference, corruption and auxiliary heads are disabled, introducing no additional inference-time overhead. Across a broad suite of standard multimodal benchmarks, our method consistently improves visual understanding and reasoning over strong baselines, and yields clear gains on compositional robustness benchmarks (e.g., NaturalBench). Moreover, under ImageNet-C-style non-adversarial common corruptions applied to benchmark images, our method maintains higher accuracy and exhibits reduced degradation at both moderate and severe corruption levels. Our code is available at https://github.com/dhruvashp/latent-denoising-for-lmms.
Abstract（参考訳）: LLaVAのようなLMM(Large Multimodal Model)は通常、自動回帰言語モデリングの目的で訓練され、視覚トークンへの間接的な監督のみを提供する。これはしばしば、分布シフトの下で内部の視覚的表現が弱く、不安定な振る舞いをもたらす。高品質な視覚トークン化器の学習における潜時認知化の最近の進歩に触発されて,LMMにおける視覚的特徴アライメントとマルチモーダル理解を改善するために,同じ原理が効果的な視覚的監督を提供することを示した。本稿では,マスキングとガウスノイズの併用により,投影された視覚トークンを劣化させる潜伏型デノナイジングフレームワークを提案する。 LMMは、デコーダを用いて、選択された中間LCM層における隠れ状態からクリーンな教師パッチ特徴を回収することにより、これらの劣化したトークンをデノーズするように訓練されている。表現の崩壊を防止するため,本フレームワークは教師のイメージ内類似性構造を保存し,画像内コントラストパッチ蒸留を適用した。推論の間、汚職と補助ヘッドは無効になり、追加の推論時間オーバーヘッドは発生しない。標準マルチモーダルベンチマークの幅広いスイートにおいて、我々の手法は、強いベースラインに対する視覚的理解と推論を一貫して改善し、構成的堅牢性ベンチマーク(例えば、NaturalBench)において明確な利得を得る。さらに、ベンチマーク画像に適用されたImageNet-C-style Non-adversarial Common corruptionでは、精度が向上し、中等度と重度の両方で劣化が減少する。私たちのコードはhttps://github.com/dhruvashp/latent-denoising-for-lmmsで利用可能です。

関連論文リスト

RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models [24.3914653184824]
LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。本稿では,累積的視覚トークンプルーニングと遅延修復機構を統合した一貫性表現プルーナを提案する。
論文参考訳（メタデータ） (2026-04-04T13:31:45Z)
Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文参考訳（メタデータ） (2026-02-27T14:18:51Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。 tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文参考訳（メタデータ） (2025-02-02T08:34:57Z)
Denoising Autoregressive Representation Learning [13.185567468951628]
DARLはデコーダのみのトランスフォーマーを用いて,画像パッチの自動回帰予測を行う。提案手法では, 適応型ノイズスケジュールを用いて学習表現を改良し, より大規模なモデルでより長い訓練を行えることを示す。
論文参考訳（メタデータ） (2024-03-08T10:19:00Z)
Multi-view Self-supervised Disentanglement for General Image Denoising [22.28610604896056]
我々は,同じクリーン画像の異なる劣化バージョンが共通の潜伏空間を共有しているという直感的な仮定の下で,ノイズの多い画像のアンタングルを学習することを提案する。自己教師付き学習フレームワークが提案され,その目標を達成する。入力と同じ画像の2つの異なる劣化バージョンを取ることで、提案されたMulti-view Self-supervised Disentanglement (MeD)アプローチは、潜伏したクリーンな特徴を破損から切り離し、クリーンなイメージを復元する。
論文参考訳（メタデータ） (2023-09-10T14:54:44Z)
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。 MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文参考訳（メタデータ） (2023-06-12T18:12:19Z)
Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense [52.66971714830943]
マスク付き画像モデリング(MIM)は、自己教師付き視覚表現学習のフレームワークとして普及している。本稿では,この強力な自己教師型学習パラダイムが,下流の分類器に対して対角的ロバスト性を提供する方法について検討する。本稿では,デノナイジングのためのデコーダを用いて,デノナイジングのための対角防御手法を提案する。
論文参考訳（メタデータ） (2023-02-02T12:37:24Z)
Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文参考訳（メタデータ） (2021-05-29T09:26:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。