Fugu-MT 論文翻訳(概要): torchdistill: A Modular, Configuration-Driven Framework for Knowledge Distillation

論文の概要: torchdistill: A Modular, Configuration-Driven Framework for Knowledge Distillation

arxiv url: http://arxiv.org/abs/2011.12913v2
Date: Wed, 27 Jan 2021 19:13:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 01:43:29.828083
Title: torchdistill: A Modular, Configuration-Driven Framework for Knowledge Distillation
Title（参考訳）: torchdistill: 知識蒸留のためのモジュール型構成駆動フレームワーク
Authors: Yoshitomo Matsubara
Abstract要約: 本稿では,PyTorchをベースとしたオープンソースフレームワークについて紹介する。このフレームワークは、ユーザが宣言型PyYAML構成ファイルで実験を設計できるように設計されている。我々は、大規模な機械学習カンファレンスで提示されたImageNetとCOCOデータセットで、元の実験結果の一部を再現する。
参考スコア（独自算出の注目度）: 1.8579693774597703
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While knowledge distillation (transfer) has been attracting attentions from the research community, the recent development in the fields has heightened the need for reproducible studies and highly generalized frameworks to lower barriers to such high-quality, reproducible deep learning research. Several researchers voluntarily published frameworks used in their knowledge distillation studies to help other interested researchers reproduce their original work. Such frameworks, however, are usually neither well generalized nor maintained, thus researchers are still required to write a lot of code to refactor/build on the frameworks for introducing new methods, models, datasets and designing experiments. In this paper, we present our developed open-source framework built on PyTorch and dedicated for knowledge distillation studies. The framework is designed to enable users to design experiments by declarative PyYAML configuration files, and helps researchers complete the recently proposed ML Code Completeness Checklist. Using the developed framework, we demonstrate its various efficient training strategies, and implement a variety of knowledge distillation methods. We also reproduce some of their original experimental results on the ImageNet and COCO datasets presented at major machine learning conferences such as ICLR, NeurIPS, CVPR and ECCV, including recent state-of-the-art methods. All the source code, configurations, log files and trained model weights are publicly available at https://github.com/yoshitomo-matsubara/torchdistill .
Abstract（参考訳）: 知識蒸留(トランスファー)が研究コミュニティから注目を集めている一方で、近年の分野の発展により、このような高品質で再現可能な深層学習研究への障壁を低くするために、再現可能な研究と高度に一般化された枠組みの必要性が高まっている。何人かの研究者が自発的に知識蒸留の研究で使われたフレームワークを公開し、他の研究者がオリジナルの作品を再現するのを助ける。しかしながら、そのようなフレームワークは通常、十分に一般化も保守もされていないため、研究者は、新しいメソッドやモデル、データセット、実験の設計を行うためのフレームワークをリファクタリング/構築するために、多くのコードを書く必要がある。本稿では,pytorchを基盤として,知識蒸留研究を専門とするオープンソースのフレームワークを提案する。このフレームワークは、ユーザが宣言的なPyYAML構成ファイルで実験を設計できるように設計されており、最近提案されたML Code Completeness Checklistの完成を支援する。開発したフレームワークを用いて, 種々の効率的な訓練戦略を示し, 様々な知識蒸留手法を実装した。我々はまた、ICLR、NeurIPS、CVPR、ECCVといった主要な機械学習カンファレンスで提示されたImageNetおよびCOCOデータセットに関する実験結果のいくつかを再現した。ソースコード、設定、ログファイル、トレーニング済みモデルウェイトはすべてhttps://github.com/yoshitomo-matsubara/torchdistill.comで公開されている。

関連論文リスト

MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文参考訳（メタデータ） (2025-02-20T12:28:23Z)
Efficient Knowledge Injection in LLMs via Self-Distillation [50.24554628642021]
本稿では, 急速蒸留を利用して, 自由形式文書から新たな事実知識を内包する手法を提案する。急速蒸留は標準的な微調整よりも優れており,RAGを超越することさえ可能であることを示す。
論文参考訳（メタデータ） (2024-12-19T15:44:01Z)
Mixture of Knowledge Minigraph Agents for Literature Review Generation [22.80918934436901]
本稿では,学術文献レビューの自動化を目的とした,共同知識ミニグラフエージェント(CKMA)を提案する。新たなプロンプトベースのアルゴリズムである知識ミニグラフ構築エージェント(KMCA)は、学術文献から概念間の関係を識別し、知識ミニグラフを自動的に構築するように設計されている。構築された知識ミニグラフにおける大規模言語モデルの能力を活用することにより、多経路要約エージェント(MPSA)は、異なる視点から概念や関係を効率的に整理し、文献レビュー段落を生成する。
論文参考訳（メタデータ） (2024-11-09T12:06:40Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.89318317245855]
MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。 MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
論文参考訳（メタデータ） (2024-08-13T17:49:00Z)
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できるこの研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文参考訳（メタデータ） (2024-07-17T20:01:21Z)
Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph [1.7418328181959968]
本研究は,革新的なセマンティッククエリ処理システムを開発することを目的としている。オーストラリア国立大学のコンピュータサイエンス(CS)研究者による研究成果に関する総合的な情報を得ることができる。
論文参考訳（メタデータ） (2024-05-24T09:19:45Z)
DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。 DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文参考訳（メタデータ） (2024-02-16T00:10:26Z)
A Reliable Knowledge Processing Framework for Combustion Science using Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文参考訳（メタデータ） (2023-12-31T17:15:25Z)
torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free Deep Learning Studies: A Case Study on NLP [3.0875505950565856]
モジュール駆動のコーディング不要なディープラーニングフレームワークである torchdistill を,大幅に改良したバージョンとして紹介する。アップグレードされた torchdistill に基づくスクリプトを用いて,BERT モデルの GLUE ベンチマーク結果を再現する。 27の細調整されたBERTモデルと結果を再現する構成はすべて、Hugging Faceで公開されている。
論文参考訳（メタデータ） (2023-10-26T17:57:15Z)
Diffusion-based Visual Counterfactual Explanations -- Towards Systematic Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文参考訳（メタデータ） (2023-08-11T12:22:37Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)
A Selective Survey on Versatile Knowledge Distillation Paradigm for Neural Network Models [3.770437296936382]
本稿では, 知識蒸留の3つの重要な要素が, 知識と損失である, 教師-学生パラダイム, 蒸留プロセスである,という仮説から, 知識蒸留の特徴を概観する。本稿では, 知識蒸留における今後の課題として, 性能向上の分析分析を研究対象とする説明可能な知識蒸留と, 深層学習コミュニティにおける熱い研究課題である自己教師型学習について述べる。
論文参考訳（メタデータ） (2020-11-30T05:22:02Z)
dagger: A Python Framework for Reproducible Machine Learning Experiment Orchestration [0.913755431537592]
機械学習における多段階の実験は、しばしば、複数の実行経路に沿ってモデルに作用する状態変化操作を含む。再現性と再利用可能な実験オーケストレーションを容易にするフレームワークであるDaggerを提案する。
論文参考訳（メタデータ） (2020-06-12T21:42:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。