論文の概要: Randomized-MLP Regularization Improves Domain Adaptation and Interpretability in DINOv2
- arxiv url: http://arxiv.org/abs/2511.05509v1
- Date: Fri, 24 Oct 2025 08:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.003229
- Title: Randomized-MLP Regularization Improves Domain Adaptation and Interpretability in DINOv2
- Title(参考訳): ランダム化MLP規則化はDINOv2のドメイン適応と解釈性を改善する
- Authors: Joel Valdivia Ortega, Lorenz Lamm, Franziska Eckardt, Benedikt Schworm, Marion Jasnin, Tingying Peng,
- Abstract要約: ビジョントランスフォーマー(ViT)は、ドメイン間で強力なパフォーマンスを達成するが、注意力や特徴マップの解釈可能性を低減する方法で、しばしば低インフォーマティブなパッチトークンを再利用する。
我々は、より意味論的に整合した表現を促進する対照的な学習法であるRandomized-MLP(RMLP)正則化を導入する。
我々は、DINOv2を微調整する際にRMLPを用いて、医用画像と自然画像の両方を微調整し、より解釈可能なアテンションマップを作成しながら、下流の性能を改善し、維持することを示す。
- 参考スコア(独自算出の注目度): 3.2428882854831986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs), such as DINOv2, achieve strong performance across domains but often repurpose low-informative patch tokens in ways that reduce the interpretability of attention and feature maps. This challenge is especially evident in medical imaging, where domain shifts can degrade both performance and transparency. In this paper, we introduce Randomized-MLP (RMLP) regularization, a contrastive learning-based method that encourages more semantically aligned representations. We use RMLPs when fine-tuning DINOv2 to both medical and natural image modalities, showing that it improves or maintains downstream performance while producing more interpretable attention maps. We also provide a mathematical analysis of RMLPs, offering insights into its role in enhancing ViT-based models and advancing our understanding of contrastive learning.
- Abstract(参考訳): DINOv2のようなビジョントランスフォーマー(ViT)は、ドメイン間で強力なパフォーマンスを達成するが、注意と特徴マップの解釈可能性を減らす方法で、しばしば低インフォーマルなパッチトークンを再利用する。
この課題は、ドメインシフトがパフォーマンスと透明性の両方を低下させる医療画像において特に顕著である。
本稿では,Randomized-MLP(RMLP)正規化(Randomized-MLP)を導入する。
我々は、DINOv2を微調整する際にRMLPを用いて、医用画像と自然画像の両方を微調整し、より解釈可能なアテンションマップを作成しながら、下流の性能を改善し、維持することを示す。
また, RMLPの数学的解析を行い, ViTモデルの拡張と, コントラスト学習の理解を深める上での役割について考察する。
関連論文リスト
- Learning from the Right Patches: A Two-Stage Wavelet-Driven Masked Autoencoder for Histopathology Representation Learning [4.281508114645598]
全スライド画像はデジタル病理の中心であるが、その極端の大きさとアノテーションが不足しているため、自己指導型学習が不可欠である。
本稿では,ウェーブレットインフォームドパッチ選択戦略を通じて,MAEに基づく学習に構造と生物学的関連性をもたらす枠組みを提案する。
WISE-MAEは、弱い監督下で効率を保ちながら、競争力のある表現品質と下流分類性能を実現する。
論文 参考訳(メタデータ) (2025-11-10T11:06:25Z) - Self-Augmented Visual Contrastive Decoding [13.078702859025482]
LVLM(Large Vision-Language Models)は、目覚ましいマルチモーダル機能を示す。
LVLMは、基礎となる言語モデルから幻覚の傾向を継承する。
本研究では,これらの制約に対処する新しい学習自由復号法を提案する。
論文 参考訳(メタデータ) (2025-10-15T09:03:34Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views [66.1245505423179]
レンダリングされたセマンティクスは、レンダリングされたRGBよりも堅牢な拡張データとして扱うことができることを示す。
提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
論文 参考訳(メタデータ) (2025-03-04T03:13:44Z) - SAFR: Neuron Redistribution for Interpretability [7.756342860929851]
重ね合わせ(英: superposition)とは、単一ニューロン内の複数の特徴の表現を符号化することである。
期待された性能にもかかわらず、モデルの解釈可能性は低下している。
本稿では,特徴重畳を正規化することによってモデル解釈可能性を高める新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T06:20:33Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Robust image representations with counterfactual contrastive learning [17.273155534515393]
因果画像合成の最近の進歩を生かした新しいフレームワークである反ファクト・コントラスト学習を導入する。
提案手法は,5つのデータセットで評価され,獲得シフトに対するロバスト性の観点から,標準的なコントラスト学習よりも優れていた。
さらなる実験により、提案フレームワークは、生物学的性間のサブグループ格差を減少させる対実的コントラスト学習で訓練されたモデルによって、獲得シフトを超えて拡張されていることが示されている。
論文 参考訳(メタデータ) (2024-09-16T15:11:00Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Unsupervised Bidirectional Cross-Modality Adaptation via Deeply
Synergistic Image and Feature Alignment for Medical Image Segmentation [73.84166499988443]
我々は、Synergistic Image and Feature Alignment (SIFA)と名付けられた新しい教師なしドメイン適応フレームワークを提案する。
提案するSIFAは、画像と特徴の両方の観点から、ドメインの相乗的アライメントを行う。
2つの異なるタスクに対する実験結果から,SIFA法は未ラベル対象画像のセグメンテーション性能を向上させるのに有効であることが示された。
論文 参考訳(メタデータ) (2020-02-06T13:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。