論文の概要: Training Frozen Feature Pyramid DINOv2 for Eyelid Measurements with Infinite Encoding and Orthogonal Regularization
- arxiv url: http://arxiv.org/abs/2504.00515v1
- Date: Tue, 01 Apr 2025 08:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:26:12.275107
- Title: Training Frozen Feature Pyramid DINOv2 for Eyelid Measurements with Infinite Encoding and Orthogonal Regularization
- Title(参考訳): 有限エンコーディングと直交正則化によるアイライド計測のための凍結性ピラミッドDINOv2の訓練
- Authors: Chun-Hung Chen,
- Abstract要約: 眼のパラメータの正確な測定は、骨形成診断において重要であるが、手動、非一貫性の方法によって制限されている。
本研究は、SE-ResNet、EfficientNet、DINOv2といったディープラーニングモデルを用いて、スマートフォンで取得した画像を用いて、これらの測定を自動化する。
DINOv2は、特にモバイルデプロイメントに理想的な凍結条件下で、優れたスケーラビリティと堅牢性を示している。
- 参考スコア(独自算出の注目度): 0.9065034043031668
- License:
- Abstract: Accurate measurement of eyelid parameters such as Margin Reflex Distances (MRD1, MRD2) and Levator Function (LF) is critical in oculoplastic diagnostics but remains limited by manual, inconsistent methods. This study evaluates deep learning models: SE-ResNet, EfficientNet, and the vision transformer-based DINOv2 for automating these measurements using smartphone-acquired images. We assess performance across frozen and fine-tuned settings, using MSE, MAE, and R2 metrics. DINOv2, pretrained through self-supervised learning, demonstrates superior scalability and robustness, especially under frozen conditions ideal for mobile deployment. Lightweight regressors such as MLP and Deep Ensemble offer high precision with minimal computational overhead. To address class imbalance and improve generalization, we integrate focal loss, orthogonal regularization, and binary encoding strategies. Our results show that DINOv2 combined with these enhancements delivers consistent, accurate predictions across all tasks, making it a strong candidate for real-world, mobile-friendly clinical applications. This work highlights the potential of foundation models in advancing AI-powered ophthalmic care.
- Abstract(参考訳): Margin Reflex Distances (MRD1, MRD2) や Levator Function (LF) などの眼球運動パラメータの正確な測定は、眼球形成診断において重要であるが、手動・非一貫性の方法によって制限されている。
本研究は、SE-ResNet、EfficientNet、DINOv2といったディープラーニングモデルを用いて、スマートフォンで取得した画像を用いて、これらの測定を自動化する。
我々は、MSE、MAE、R2メトリクスを使用して、凍結および微調整された設定のパフォーマンスを評価する。
DINOv2は自己教師型学習によって事前訓練され、特にモバイルデプロイメントに適した凍結条件下で、優れたスケーラビリティと堅牢性を示す。
MLPやDeep Ensembleのような軽量な回帰器は計算オーバーヘッドを最小限に抑えながら高精度である。
クラス不均衡に対処し、一般化を改善するために、焦点損失、直交正規化、バイナリ符号化戦略を統合する。
以上の結果から,DINOv2とこれらの拡張を組み合わせることで,すべてのタスクに対して一貫した正確な予測が可能となり,実世界のモバイルフレンドリーな臨床応用の有力候補となることが示唆された。
この研究は、AIによる眼科医療の進歩における基礎モデルの可能性を強調している。
関連論文リスト
- BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module [11.898515581215708]
視覚計測(VO)は、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。
本稿では,トランスフォーマーアーキテクチャに基づく新しいVOモデルであるBrightVOを紹介し,フロントエンドの視覚的特徴抽出を行う。
ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
論文 参考訳(メタデータ) (2025-01-15T08:50:52Z) - Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - RLEEGNet: Integrating Brain-Computer Interfaces with Adaptive AI for
Intuitive Responsiveness and High-Accuracy Motor Imagery Classification [0.0]
本稿では,Deep Q-Networks (DQN) を用いた強化学習を分類タスクに活用するフレームワークを提案する。
本稿では,OVR(One-Versus-The-Rest)方式で,マルチクラス運動画像(MI)分類のための前処理手法を提案する。
DQNと1D-CNN-LSTMアーキテクチャの統合は意思決定プロセスをリアルタイムで最適化する。
論文 参考訳(メタデータ) (2024-02-09T02:03:13Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Self-learning locally-optimal hypertuning using maximum entropy, and
comparison of machine learning approaches for estimating fatigue life in
composite materials [0.0]
疲労損傷を予測するための最大エントロピーの原理に基づくML近傍近似アルゴリズムを開発した。
予測は、他のMLアルゴリズムと同様、高いレベルの精度を達成する。
論文 参考訳(メタデータ) (2022-10-19T12:20:07Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Model of the Weak Reset Process in HfOx Resistive Memory for Deep
Learning Frameworks [0.6745502291821955]
酸化ハフニウムRRAMにおける弱いRESET過程のモデルを提案する。
私たちはこのモデルをPyTorchディープラーニングフレームワークに統合します。
我々はこのツールを用いて、MNIST手書き文字認識タスクのためのバイナリニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2021-07-02T08:50:35Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Calibrating Deep Neural Networks using Focal Loss [77.92765139898906]
ミススキャリブレーション(Miscalibration)は、モデルの信頼性と正しさのミスマッチである。
焦点損失は、既に十分に校正されたモデルを学ぶことができることを示す。
ほぼすべてのケースにおいて精度を損なうことなく,最先端のキャリブレーションを達成できることを示す。
論文 参考訳(メタデータ) (2020-02-21T17:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。