Fugu-MT 論文翻訳(概要): Self-Distillation with Meta Learning for Knowledge Graph Completion

論文の概要: Self-Distillation with Meta Learning for Knowledge Graph Completion

arxiv url: http://arxiv.org/abs/2305.12209v1
Date: Sat, 20 May 2023 15:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 00:00:30.479352
Title: Self-Distillation with Meta Learning for Knowledge Graph Completion
Title（参考訳）: 知識グラフ補完のためのメタ学習による自己蒸留
Authors: Yunshui Li, Junhao Liu, Chengming Li, Min Yang
Abstract要約: 知識グラフ補完のためのメタラーニングを用いた自己蒸留フレームワークを提案する。本稿ではまず,大規模ソースモデルから小さなプルーニングモデルを得るための動的プルーニング手法を提案する。そこで我々は,ソースモデルからプルーンドモデルへの包括的知識を蒸留するための一段階のメタ自己蒸留法を提案する。特に,1回の反復でソースモデルと一緒に訓練されたプルーンドモデルの性能を利用して,ソースモデルの知識伝達能力を向上させる。
参考スコア（独自算出の注目度）: 26.268302804627726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a selfdistillation framework with meta learning(MetaSD) for knowledge graph completion with dynamic pruning, which aims to learn compressed graph embeddings and tackle the longtail samples. Specifically, we first propose a dynamic pruning technique to obtain a small pruned model from a large source model, where the pruning mask of the pruned model could be updated adaptively per epoch after the model weights are updated. The pruned model is supposed to be more sensitive to difficult to memorize samples(e.g., longtail samples) than the source model. Then, we propose a onestep meta selfdistillation method for distilling comprehensive knowledge from the source model to the pruned model, where the two models coevolve in a dynamic manner during training. In particular, we exploit the performance of the pruned model, which is trained alongside the source model in one iteration, to improve the source models knowledge transfer ability for the next iteration via meta learning. Extensive experiments show that MetaSD achieves competitive performance compared to strong baselines, while being 10x smaller than baselines.
Abstract（参考訳）: 本稿では,圧縮グラフ埋め込みを学習し,ロングテールサンプルに取り組むことを目的とした,動的プルーニングを用いた知識グラフ補完のためのメタラーニング(metasd)を用いた自己蒸留フレームワークを提案する。具体的には,モデル重みが更新された後のエポック毎に,プルーニングモデルのプルーニングマスクを適応的に更新できるような,大きなソースモデルから小さなプルーニングモデルを得るための動的プルーニング手法を提案する。刈り取られたモデルは、ソースモデルよりもサンプル(例えばロングテールサンプル)を記憶するのが難しいほど敏感であるはずである。そこで我々は,2つのモデルが訓練中に動的に共進化する,ソースモデルからプルーンドモデルへ包括的知識を蒸留する一段階メタ自己蒸留法を提案する。特に,1イテレーションでソースモデルと一緒に訓練されたプルーンドモデルの性能を利用して,メタ学習による次のイテレーションにおけるソースモデルの知識伝達能力を向上させる。大規模な実験では、MetaSDはベースラインよりも10倍小さく、強いベースラインに比べて競争性能が向上している。

関連論文リスト

Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
Learning to Jump: Thinning and Thickening Latent Counts for Generative Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文参考訳（メタデータ） (2023-05-28T05:38:28Z)
Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文参考訳（メタデータ） (2023-01-27T06:49:47Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文参考訳（メタデータ） (2022-07-19T20:19:03Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
Bridging Pre-trained Models and Downstream Tasks for Source Code Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。我々は、下流データの多様性を豊かにする意味保存変換を利用する。本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文参考訳（メタデータ） (2021-12-04T07:21:28Z)
Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文参考訳（メタデータ） (2021-04-23T02:56:02Z)
Self-Feature Regularization: Self-Feature Distillation Without Teacher Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文参考訳（メタデータ） (2021-03-12T15:29:00Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)
Efficient Learning of Model Weights via Changing Features During Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文参考訳（メタデータ） (2020-02-21T12:38:14Z)
Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文参考訳（メタデータ） (2020-01-20T15:15:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。