Fugu-MT 論文翻訳(概要): Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization

論文の概要: Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization

arxiv url: http://arxiv.org/abs/2505.07675v1
Date: Mon, 12 May 2025 15:39:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.460411
Title: Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization
Title（参考訳）: $\mathbf{\textt{D}}$ual-$\mathbf{\textt{H}}$ead $\mathbf{\textt{O}}$ptimizationによる視覚言語モデルからの簡易半教師付き知識蒸留
Authors: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Sung Ju Hwang,
Abstract要約: VLM(Vision-Constrained Model)は、ラベル付きデータが最小限に抑えられたリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングがしばしば行われている。本稿では,VLMの知識を,半言語設定でコンパクトなタスク固有モデルに伝達する,シンプルで効果的なKDフレームワークであるmathbftextttDHO$を提案する。
参考スコア（独自算出の注目度）: 49.2338910653152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) have achieved remarkable success across diverse tasks by leveraging rich textual information with minimal labeled data. However, deploying such large models remains challenging, particularly in resource-constrained environments. Knowledge distillation (KD) offers a well-established solution to this problem; however, recent KD approaches from VLMs often involve multi-stage training or additional tuning, increasing computational overhead and optimization complexity. In this paper, we propose $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization ($\mathbf{\texttt{DHO}}$) -- a simple yet effective KD framework that transfers knowledge from VLMs to compact, task-specific models in semi-supervised settings. Specifically, we introduce dual prediction heads that independently learn from labeled data and teacher predictions, and propose to linearly combine their outputs during inference. We observe that $\texttt{DHO}$ mitigates gradient conflicts between supervised and distillation signals, enabling more effective feature learning than single-head KD baselines. As a result, extensive experiments show that $\texttt{DHO}$ consistently outperforms baselines across multiple domains and fine-grained datasets. Notably, on ImageNet, it achieves state-of-the-art performance, improving accuracy by 3% and 0.1% with 1% and 10% labeled data, respectively, while using fewer parameters.
Abstract（参考訳）: 視覚言語モデル (VLM) は、ラベル付き最小限のデータでリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。しかし、特に資源制約のある環境では、そのような大規模なモデルをデプロイすることは困難である。知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニング、計算オーバーヘッドの増加、最適化の複雑さが伴うことが多い。本稿では,VLMからの知識をコンパクトなタスク固有モデルに半教師付き設定で伝達する,シンプルで効果的なKDフレームワークである $\mathbf{\textt{D}}$ual-$\mathbf{\textt{H}}$ead $\mathbf{\textt{O}}$ptimization(\mathbf{\textt{DHO}}$)を提案する。具体的には、ラベル付きデータと教師予測から独立して学習する二重予測ヘッドを導入し、推論中に出力を線形に組み合わせることを提案する。我々は, 教師付き信号と蒸留信号の勾配競合を緩和する$\texttt{DHO}$が, シングルヘッドKDベースラインよりも効果的な特徴学習を可能にすることを観察した。その結果、$\texttt{DHO}$は複数のドメインときめ細かいデータセットで一貫してベースラインを上回ります。特にImageNetでは、最先端のパフォーマンスを実現し、1%と10%のラベル付きデータで精度を3%と0.1%向上し、パラメータが少なくなった。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Information-Guided Diffusion Sampling for Dataset Distillation [44.216998537570866]
拡散モデル(DM)はこのタスクを約束しているが、低画像/クラス(IPC)設定で苦労している。蒸留データセットが保持しなければならない2つの重要な種類の情報を特定する。 Tiny ImageNetおよびImageNetサブセットの実験では、情報誘導拡散サンプリング(IGDS)が既存の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-07-07T02:27:08Z)
Data Uniformity Improves Training Efficiency and More, with a Convergence Framework Beyond the NTK Regime [9.749891245059596]
より均一に分散したデータを選択することで、トレーニング効率が向上し、性能が向上することを示す。具体的には、より均一な(バイアスのない)分布が、データポイント間の最小ペア距離を大きくすることを示す。理論的には、ニューラルネットワークの近似誤差は、h_min$が増加するにつれて減少する。
論文参考訳（メタデータ） (2025-06-30T17:58:30Z)
Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training [53.07879717463279]
textscDomain2Vecは任意のデータセットを複数のEmphmetaドメインの線形結合に分解する textscDomain2Vecは、最小の計算オーバーヘッドでダウンストリームタスクのパフォーマンスを向上させるデータミックスを見つけるのに役立つ。
論文参考訳（メタデータ） (2025-06-12T17:53:51Z)
H$^{\mathbf{3}}$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning [25.65324419553667]
我々は,視覚的特徴と行動生成の統合を強化するために,階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$textbfTriply-Hierarchical Diffusion Policy(textbfH$mathbf3$DP)を紹介した。大規模な実験では、H$3$DPは$mathbf+27.5%の平均相対的な改善を$mathbf44$のシミュレーションタスクで達成し、$mathbf4$の挑戦的な実世界の操作タスクで優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-12T17:59:43Z)
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration [30.781359402734036]
LVLM(Large Vision-Language Models)は、視覚的理解と言語生成の融合において大きな進歩を遂げている。この成功にもかかわらず、LVLMのトレーニングデータは、データ分布が極めて不均衡であるLong-Tail (LT)問題に悩まされている。 DSの段階では,Denoising Diffusion Probabilistic Models(DDPM)と不足した画像を利用して,表現不足の部分を補う。
論文参考訳（メタデータ） (2025-03-17T05:01:09Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)において顕著な効果を示した本稿では,Self-Ensembling Gaussian Splatting(SE-GS)を紹介する。我々は,トレーニング中に不確実性を認識した摂動戦略を導入することで,自己理解を実現する。 LLFF, Mip-NeRF360, DTU, MVImgNetデータセットによる実験結果から, 本手法がNVSの品質を向上させることを示す。
論文参考訳（メタデータ） (2024-10-31T18:43:48Z)
How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective [17.956310574300765]
本稿では,新しい自己アニメーション学習フレームワーク(textbfGSIL$)を紹介する。大規模な言語モデルとオフラインのデモデータとを効果的に効率的に整列する。 $textbfGSIL$一貫性があり、多くの挑戦的なベンチマークでベースラインをはるかに上回っている。
論文参考訳（メタデータ） (2024-10-14T02:21:29Z)
Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題ですペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文参考訳（メタデータ） (2024-10-03T16:12:59Z)
Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data [4.971690889257356]
コリンズとナイアーとヴァスワニによって提案された交互最小化・退化スキームの適応について紹介する。 iidにおいてもバニラ変動最小化降下は破滅的に失敗するが, 軽度に非等方性データは得られない。我々の分析は、事前の作業を統一し、一般化し、幅広いアプリケーションに柔軟なフレームワークを提供する。
論文参考訳（メタデータ） (2023-08-08T17:56:20Z)
How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文参考訳（メタデータ） (2021-03-15T15:38:47Z)
Learning to extrapolate using continued fractions: Predicting the critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文参考訳（メタデータ） (2020-11-27T04:57:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。