論文の概要: Exploring parameter-efficient fine-tuning (PEFT) of billion-parameter vision models with QLoRA and DoRA: insights into generalization for limited-data image classification under a 98:1 test-to-train regime
- arxiv url: http://arxiv.org/abs/2603.17782v1
- Date: Wed, 18 Mar 2026 14:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.759325
- Title: Exploring parameter-efficient fine-tuning (PEFT) of billion-parameter vision models with QLoRA and DoRA: insights into generalization for limited-data image classification under a 98:1 test-to-train regime
- Title(参考訳): QLoRAとDoRAを用いた10億パラメータビジョンモデルのパラメータ効率細調整(PEFT)の探索 : 98:1テスト・トゥ・トレイン体制下での限定データ画像分類の一般化に関する考察
- Authors: Haiyu Yang, Sumit Sharma, Enhong Liu, Miel Hostens,
- Abstract要約: 本研究では,DINOv3基礎モデルのスクラッチからのトレーニング(ResNet-18, ViT-Small),凍結特徴抽出,パラメータ効率細調整(PEFT)の3つのアプローチを体系的に比較した。
QLoRA と DoRA は、異なるランク (8, 16, 64) とターゲットモジュール (q_proj 対全線形層) の複数の構成で評価した。
その結果、PEFTはQLoRAの最良の構成(全直線層とランク=64)が5.8時間で2.72%のパラメータ(3.0M)で83.16%のテスト精度を達成した。
- 参考スコア(独自算出の注目度): 0.5765148824909591
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated behavior classification is essential for precision livestock farming but faces challenges of high computational costs and limited labeled data. This study systematically compared three approaches: training from scratch (ResNet-18, ViT-Small), frozen feature extraction, and parameter-efficient fine-tuning (PEFT) of the DINOv3 foundation model (6.7 billion parameters). We evaluated QLoRA and DoRA across multiple configurations varying rank (8, 16, 64) and target modules (q_proj versus all-linear layers). With 2,160 verified training images, we assessed generalization of our model on 211,800 test samples, which is essentially a 98:1 test-to-train ratio. Results demonstrated that PEFT substantially outperformed alternatives, where the best QLoRA configuration (all-linear layers and rank=64) achieved 83.16% test accuracy with only 2.72% parameters (183.0M) in 5.8 hours, compared to 72.87% for ResNet-18 (16.8 hours), 61.91% for ViT-Small (18.7 hours), and 76.56% for frozen DINOv3 (17.5 hours). DoRA achieved comparable accuracy (83.14%) but with longer training time (11.0 hours). Notably, increasing adapter capacity consistently improved generalization while simultaneously not causing overfitting: reducing rank from 16 to 8 decreased test accuracy from 78.38% to 77.17%, while expanding from q_proj-only to all-linear layers with rank=64 improved accuracy from 78.38% to 83.16%. This suggests underfitting, instead of overfitting, is the primary challenge when adapting foundation models to agricultural imagery. Our findings provide guidelines for deploying billion-parameter vision models with PEFT in agricultural livestock applications.
- Abstract(参考訳): 家畜の精密養殖には自動行動分類が不可欠であるが、高い計算コストと限られたラベル付きデータによる課題に直面している。
本研究では,DINOv3基礎モデルのスクラッチからのトレーニング(ResNet-18, ViT-Small),凍結特徴抽出,パラメータ効率細調整(PEFT)の3つのアプローチを体系的に比較した。
QLoRA と DoRA は異なるランク (8, 16, 64) とターゲットモジュール (q_proj 対全直線層) の複数の構成で評価した。
2,160点のトレーニング画像を用いて,211,800検体を用いたモデル解析を行い,98:1検体比を推定した。
その結果、PEFTはQLoRAの最良の構成(全線形層とランク=64)が83.16%の精度で5.8時間でパラメータ(3.0M)が2.72%しかなかったのに対し、ResNet-18では72.87%(16.8時間)、ViT-Smallでは61.91%(18.7時間)、凍結したDINOv3では76.56%であった。
DoRAは83.14%の精度を達成したが、訓練時間は11.0時間であった。
ランクを16から8に下げると、テスト精度は78.38%から77.17%に低下し、q_projのみから64のランクで全線形層に拡大し、78.38%から83.16%に改善された。
これは、過度に適合する代わりに、不適合が基礎モデルを農業画像に適用する際の主要な課題であることを示している。
本研究は,農業畜産分野におけるPEFTを用いた10億パラメータビジョンモデルの展開に関するガイドラインを提供する。
関連論文リスト
- Time-Series at the Edge: Tiny Separable CNNs for Wearable Gait Detection and Optimal Sensor Placement [3.7765281299298015]
我々は,3軸加速度の短い窓から発生するパーキンソン病(PD)の歩行検出のためのデバイス上での時系列解析について検討した。
1つの文献ベースライン(分離可能な畳み込み)と2つのウルトラライトモデル(純粋に分離可能なもの)である。
論文 参考訳(メタデータ) (2025-11-29T08:52:41Z) - MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models [52.32146943039743]
人間のフィードバックからの強化学習は、生成モデルと人間の美学と知覚的嗜好を高度に一致させる。
MapReduce LoRA と Reward-aware Token Embedding (RaTE) の2つの補完手法を紹介する。
我々のフレームワークは、モダリティにまたがる新しい最先端のマルチ参照アライメントのレシピを定めている。
論文 参考訳(メタデータ) (2025-11-25T18:49:21Z) - Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - Exploring the Hierarchical Reasoning Model for Small Natural-Image Classification Without Augmentation [51.56484100374058]
MNIST、CIFAR-10、CIFAR-100で意図的に生の条件下で評価される。
拡張性のない小型画像分類では、HRMは単純な畳み込みアーキテクチャと競合するものではないと結論付けている。
論文 参考訳(メタデータ) (2025-10-04T01:22:41Z) - A Comparative Benchmark of Real-time Detectors for Blueberry Detection towards Precision Orchard Management [2.667064587590596]
本研究では,先進的リアルタイム物体検出器の比較ベンチマーク解析を行った。
このデータセットは、2022-2023シーズンにスマートフォンで収集された671枚の天蓋画像からなる。
YOLOモデルのうち、YOLOv12mはmAP@50の93.3%で最高の精度を達成した。
論文 参考訳(メタデータ) (2025-09-24T21:42:24Z) - Transfer Learning-Based CNN Models for Plant Species Identification Using Leaf Venation Patterns [0.0]
本研究では,3つのディープラーニングアーキテクチャ(ResNet50,MobileNetV2,EfficientNetB0)の有効性を評価する。
論文 参考訳(メタデータ) (2025-09-03T21:23:09Z) - Efficient Online RFT with Plug-and-Play LLM Judges: Unlocking State-of-the-Art Performance [0.0]
リワードモデルトレーニングは、現代の強化学習ヒューマンフィードバック(RLHF)パイプラインのコストボトルネックである。
提案手法では, 冷凍型7B LLMを1行とランク16のLORAアダプタで拡張する。
プラグ・アンド・プレイの審査員96.2%はRewardBenchの精度を達成し、27Bから70Bパラメータの特殊報酬ネットワークを上回っている。
論文 参考訳(メタデータ) (2025-06-06T05:18:54Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。