論文の概要: Parameter-Efficient Fine-Tuning of DINOv2 for Large-Scale Font Classification
- arxiv url: http://arxiv.org/abs/2602.13889v1
- Date: Sat, 14 Feb 2026 21:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.54226
- Title: Parameter-Efficient Fine-Tuning of DINOv2 for Large-Scale Font Classification
- Title(参考訳): 大規模フォント分類のためのパラメータ効率の良いDINOv2微調整
- Authors: Daniel Chen, Zaria Zinn, Marcus Lowe,
- Abstract要約: テキスト画像から394種類のフォントを識別できるフォント分類システムを提案する。
提案手法はローランド適応 (LoRA) を用いたDINOv2視覚変換器を微調整し, モデル87.2Mパラメータの1%未満をトレーニングしながら, 86%のTop-1精度を実現した。
- 参考スコア(独自算出の注目度): 0.22940141855172033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a font classification system capable of identifying 394 font families from rendered text images. Our approach fine-tunes a DINOv2 Vision Transformer using Low-Rank Adaptation (LoRA), achieving approximately 86% top-1 accuracy while training fewer than 1% of the model's 87.2M parameters. We introduce a synthetic dataset generation pipeline that renders Google Fonts at scale with diverse augmentations including randomized colors, alignment, line wrapping, and Gaussian noise, producing training images that generalize to real-world typographic samples. The model incorporates built-in preprocessing to ensure consistency between training and inference, and is deployed as a HuggingFace Inference Endpoint. We release the model, dataset, and full training pipeline as open-source resources.
- Abstract(参考訳): テキスト画像から394種類のフォントを識別できるフォント分類システムを提案する。
提案手法はローランド適応 (LoRA) を用いたDINOv2視覚変換器を微調整し, モデル87.2Mパラメータの1%未満をトレーニングしながら, 86%のTop-1精度を実現した。
ランダムな色、アライメント、ラインラッピング、ガウスノイズなど、Google Fontsを大規模にレンダリングする合成データセット生成パイプラインを導入し、実世界のタイポグラフィーサンプルに一般化したトレーニング画像を生成する。
このモデルは、トレーニングと推論の一貫性を確保するためにビルトインのプリプロセッシングを導入し、HuggingFace Inference Endpointとしてデプロイされる。
モデル、データセット、フルトレーニングパイプラインをオープンソースリソースとしてリリースしています。
関連論文リスト
- Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning [33.269644831847636]
画像適応型プロンプト学習(IAPL)は、学習後に修正するのではなく、各入力画像に応じてプロンプトを調整する新しいパラダイムである。
IAPLは、広く使われているUniversalFakeDetectとGenImageデータセットで95.61%と96.7%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-03T05:41:24Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [49.80911683739506]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Image Captions are Natural Prompts for Text-to-Image Models [53.529592120988]
テキストから画像への生成モデルでは,手作りのプロンプトで情報学習データを合成することは困難である。
我々は,ImageNet分類によって検証された,シンプルで効果的な手法を提案する。
この単純なキャプションは,合成データの情報性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。