論文の概要: DINO-MX: A Modular & Flexible Framework for Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2511.01610v1
- Date: Mon, 03 Nov 2025 14:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.291336
- Title: DINO-MX: A Modular & Flexible Framework for Self-Supervised Learning
- Title(参考訳): DINO-MX: 自己指導型学習のためのモジュール型で柔軟なフレームワーク
- Authors: Mahmut Selman Gokmen, Cody Bumgardner,
- Abstract要約: DINO-MXはDINO、DINOv2、DINOv3のコア原則を組み合わせたモジュラーおよびトレーニングフレームワークである。
さまざまなトランスフォーマーベースのアーキテクチャをサポートしており、Hugging Faceエコシステムと完全に互換性がある。
シングルチャネルとマルチチャネルのイメージを含む、自然と特殊の両方のデータタイプで動作するように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Foundation Models (VFMs) have advanced representation learning through self-supervised methods. However, existing training pipelines are often inflexible, domain-specific, or computationally expensive, which limits their usability across different domains and resource settings. DINO-MX is a modular and extensible training framework that combines the core principles of DINO, DINOv2 and DINOv3 within a unified configuration-driven system. It supports a variety of transformer-based architectures and is fully compatible with the Hugging Face ecosystem. The framework includes multiple training strategies such as low-rank adaptation (LoRA), layer freezing, and knowledge distillation, along with support for distributed training through both Distributed Data Parallel (DDP) and Fully Sharded Data Parallel (FSDP). DINO-MX is designed to work with both natural and specialized data types, including single- and multi-channel images. Experimental results on diverse datasets show that DINO-MX achieves competitive performance while significantly reducing computational costs. Additionally, it offers interpretability tools and a label-guided data augmentation method that improves attention-based localization without the need for extra detection or segmentation heads. DINO-MX provides a reproducible and scalable foundation for developing, adapting, and benchmarking self-supervised vision models across a range of research and real-world applications.
- Abstract(参考訳): ビジョンファウンデーション・モデル(VFM)は自己指導的手法によって高度な表現学習を行う。
しかし、既存のトレーニングパイプラインは、しばしば柔軟性がなく、ドメイン固有で、あるいは計算コストがかかるため、異なるドメインやリソース設定でのユーザビリティが制限される。
DINO-MXはモジュール式で拡張可能なトレーニングフレームワークで、DINO、DINOv2、DINOv3のコア原則を統合構成駆動システムで組み合わせている。
さまざまなトランスフォーマーベースのアーキテクチャをサポートしており、Hugging Faceエコシステムと完全に互換性がある。
このフレームワークには、ローランク適応(LoRA)、層凍結、知識蒸留といった複数のトレーニング戦略と、分散データ並列(DDP)とフルシャードデータ並列(FSDP)による分散トレーニングのサポートが含まれている。
DINO-MXは、シングルチャネルとマルチチャネルのイメージを含む、自然と特殊の両方のデータタイプで動作するように設計されている。
多様なデータセットに対する実験結果から,DINO-MXは計算コストを大幅に削減しつつ,競争性能を向上することが示された。
さらに、追加検出やセグメンテーションヘッドを必要とせず、注意に基づくローカライゼーションを改善する、解釈可能性ツールとラベル誘導データ拡張方法を提供する。
DINO-MXは、様々な研究や現実世界のアプリケーションで自己監督型ビジョンモデルを開発し、適応し、ベンチマークするための再現可能でスケーラブルな基盤を提供する。
関連論文リスト
- XxaCT-NN: Structure Agnostic Multimodal Learning for Materials Science [0.27185251060695437]
元素組成とX線回折(XRD)から直接学習するスケーラブルなフレームワークを提案する。
アーキテクチャは、モダリティ固有のエンコーダとクロスアテンション融合モジュールを統合し、500万サンプルのアレクサンドリアデータセットでトレーニングする。
本研究は, 材料科学の基礎モデルとして, 無構造, 実験的な基礎モデルへの道のりを定めている。
論文 参考訳(メタデータ) (2025-06-27T21:45:56Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Domain-Agnostic Neural Architecture for Class Incremental Continual
Learning in Document Processing Platform [3.630365560970225]
学習勾配を持つ最近の手法は、そのような設定に苦しむか、メモリバッファのような制限があることが示されている。
本稿では,各クラスからサンプルを別々に提示した場合に,高性能な分類器の訓練を可能にする,Mixture of Expertsモデルに基づく完全微分可能なアーキテクチャを提案する。
各種ドメインに適用可能であること,実運用環境でオンライン学習できることを実証する徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-07-11T16:01:44Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - SINGA-Easy: An Easy-to-Use Framework for MultiModal Analysis [18.084628500554462]
SINGA-Easyは、トレーニング段階での分散ハイパーパラメータチューニング、推論段階での動的計算コスト制御、モデル説明によるマルチメディアコンテンツとの直感的なユーザインタラクションを提供する新しいディープラーニングフレームワークである。
マルチモーダリティデータ解析アプリケーションのトレーニングと展開に関する実験により,このフレームワークは動的推論負荷に適応可能であることが示された。
論文 参考訳(メタデータ) (2021-08-03T08:39:54Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。