Fugu-MT 論文翻訳(概要): CLDA: Collaborative Learning for Enhanced Unsupervised Domain Adaptation

論文の概要: CLDA: Collaborative Learning for Enhanced Unsupervised Domain Adaptation

arxiv url: http://arxiv.org/abs/2409.02699v1
Date: Wed, 4 Sep 2024 13:35:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-05 18:06:50.011689
Title: CLDA: Collaborative Learning for Enhanced Unsupervised Domain Adaptation
Title（参考訳）: CLDA: 強化された教師なしドメイン適応のための協調学習
Authors: Minhee Cho, Hyesong Choi, Hayeon Jo, Dongbo Min,
Abstract要約: コラボレーティブ・ラーニング(Collaborative Learning)とは、学生モデルを用いて教師の非塩分パラメータを更新し、同時に生徒のパフォーマンスを向上させる手法である。 CLDAは、教師の+0.7% mIoUと生徒の+1.4% mIoUを、GTAのベースラインモデルとシティスケープのベースラインモデルに比較して改善する。
参考スコア（独自算出の注目度）: 15.97351561456467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised Domain Adaptation (UDA) endeavors to bridge the gap between a model trained on a labeled source domain and its deployment in an unlabeled target domain. However, current high-performance models demand significant resources, resulting in prohibitive deployment costs and highlighting the need for small yet effective models. For UDA of lightweight models, Knowledge Distillation (KD) in a Teacher-Student framework can be a common approach, but we find that domain shift in UDA leads to a significant increase in non-salient parameters in the teacher model, degrading model's generalization ability and transferring misleading information to the student model. Interestingly, we observed that this phenomenon occurs considerably less in the student model. Driven by this insight, we introduce Collaborative Learning, a method that updates the teacher's non-salient parameters using the student model and at the same time enhance the student's performance using the updated teacher model. Experiments across various tasks and datasets show consistent performance improvements for both student and teacher models. For example, in semantic segmentation, CLDA achieves an improvement of +0.7% mIoU for teacher and +1.4% mIoU for student compared to the baseline model in the GTA to Cityscapes. In the Synthia to Cityscapes, it achieves an improvement of +0.8% mIoU for teacher and +2.0% mIoU for student.
Abstract（参考訳）: Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインでトレーニングされたモデルとラベルなしのターゲットドメインへのデプロイの間のギャップを埋める試みである。しかし、現在の高性能モデルはかなりのリソースを必要としており、結果として配置コストが禁じられ、小さなが効果的なモデルの必要性が強調される。軽量モデルのUDAでは、教師-学生フレームワークにおける知識蒸留(KD)が一般的であるが、UDAのドメインシフトは教師モデルにおける非塩分パラメータの顕著な増加、モデルの一般化能力の低下、学生モデルへの誤解を招く情報伝達につながる。興味深いことに,学生モデルでは,この現象がかなり少ないことが観察された。この知見に基づいて,学生モデルを用いて教師の非塩分パラメータを更新すると同時に,教師モデルを用いて生徒のパフォーマンスを向上させる手法である協調学習を紹介した。さまざまなタスクやデータセットに対する実験は、学生モデルと教師モデルの両方で一貫したパフォーマンス改善を示している。例えば、セマンティックセグメンテーションにおいて、CLDAは教師の+0.7% mIoU、生徒の+1.4% mIoUをGTAのベースラインモデルからCityscapesに改善する。 Synthia to Cityscapesでは、教師が+0.8% mIoU、生徒が+2.0% mIoUの向上を実現している。

関連論文リスト

CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文参考訳（メタデータ） (2025-03-23T23:53:08Z)
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs [58.4911494598431]
DistiLLM-2は、教師の反応の可能性を同時に増加させ、生徒の反応を減少させる対照的なアプローチである。実験の結果,DistiLLM-2は様々なタスクにまたがって高性能な学生モデルを構築するだけでなく,多様なアプリケーションをサポートすることがわかった。
論文参考訳（メタデータ） (2025-03-10T08:51:32Z)
Asymmetric Decision-Making in Online Knowledge Distillation:Unifying Consensus and Divergence [18.640219880439062]
本稿では,中間空間表現を活用する革新的な手法を提案する。本稿では,学生モデルの特徴コンセンサス学習を強化するために,非対称意思決定(ADM)を提案する。
論文参考訳（メタデータ） (2025-03-09T16:32:25Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文参考訳（メタデータ） (2024-08-22T12:04:04Z)
Generalizing Teacher Networks for Effective Knowledge Distillation Across Student Architectures [4.960025399247103]
Generic Teacher Network (GTN) は、知識を有限のアーキテクチャプールからサンプリングされた任意の学生モデルに効果的に伝達できる汎用的な教師を作成するための、一発のKD-awareトレーニングである。本手法は, 総合的なKD効果の向上と, プール内の生徒間での総合教師のトレーニングコストの最小化を両立させる。
論文参考訳（メタデータ） (2024-07-22T20:34:00Z)
Relational Representation Distillation [6.24302896438145]
本稿では,教師モデルと学生モデルの関係を探求し,強化するためにRepresentation Distillation (RRD)を導入する。自己監督学習の原則に触発されて、正確な複製と類似性に焦点を当てた、リラックスした対照的な損失を使用する。我々は,CIFAR-100とImageNet ILSVRC-2012において優れた性能を示し,KDと組み合わせた場合,教師ネットワークよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-07-16T14:56:13Z)
Periodically Exchange Teacher-Student for Source-Free Object Detection [7.222926042027062]
Source-free Object Detection (SFOD) は、ソースドメインデータがない場合に、未ラベルのターゲットドメインデータにソース検出器を適用することを目的としている。ほとんどのSFOD法は、学生モデルを1つの教師モデルのみで指導する平均教師(MT)フレームワークを用いて、同じ自己学習パラダイムに従っている。静的教師, 動的教師, 学生モデルからなる複数教師の枠組みを導入する, シンプルながら斬新な手法であるPETS法を提案する。
論文参考訳（メタデータ） (2023-11-23T11:30:54Z)
One-for-All: Bridge the Gap Between Heterogeneous Architectures in Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文参考訳（メタデータ） (2023-10-30T11:13:02Z)
KDSM: An uplift modeling framework based on knowledge distillation and sample matching [2.036924568983982]
昇降モデリングは、個人に対する治療効果を推定することを目的としている。木に基づく手法は増分と一般化に適しており、ニューラルネットベースのモデルは絶対値と精度の予測に優れている。本稿では,知識蒸留とサンプルマッチング(KDSM)に基づくアップリフトモデリングフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T09:15:28Z)
EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95～97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文参考訳（メタデータ） (2023-01-27T22:04:37Z)
Directed Acyclic Graph Factorization Machines for CTR Prediction via Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。 KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文参考訳（メタデータ） (2022-11-21T03:09:42Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。