Fugu-MT 論文翻訳(概要): Building Accurate Simple Models with Multihop

論文の概要: Building Accurate Simple Models with Multihop

arxiv url: http://arxiv.org/abs/2109.06961v1
Date: Tue, 14 Sep 2021 20:39:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-16 15:14:05.759232
Title: Building Accurate Simple Models with Multihop
Title（参考訳）: マルチホップによる正確な簡易モデルの構築
Authors: Amit Dhurandhar and Tejaswini Pedapati
Abstract要約: 本稿では,複雑なモデルから単純なモデルへ情報を伝達するメタアプローチを提案する。提案手法では, 前述した手法のいずれかを用いて, 連続したモデル間で情報を伝達することができる。実データに関する実験では、1ホップ以上のモデルの異なる選択に対して一貫した利得が得られることが観察された。
参考スコア（独自算出の注目度）: 13.182955266765653
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Knowledge transfer from a complex high performing model to a simpler and potentially low performing one in order to enhance its performance has been of great interest over the last few years as it finds applications in important problems such as explainable artificial intelligence, model compression, robust model building and learning from small data. Known approaches to this problem (viz. Knowledge Distillation, Model compression, ProfWeight, etc.) typically transfer information directly (i.e. in a single/one hop) from the complex model to the chosen simple model through schemes that modify the target or reweight training examples on which the simple model is trained. In this paper, we propose a meta-approach where we transfer information from the complex model to the simple model by dynamically selecting and/or constructing a sequence of intermediate models of decreasing complexity that are less intricate than the original complex model. Our approach can transfer information between consecutive models in the sequence using any of the previously mentioned approaches as well as work in 1-hop fashion, thus generalizing these approaches. In the experiments on real data, we observe that we get consistent gains for different choices of models over 1-hop, which on average is more than 2\% and reaches up to 8\% in a particular case. We also empirically analyze conditions under which the multi-hop approach is likely to be beneficial over the traditional 1-hop approach, and report other interesting insights. To the best of our knowledge, this is the first work that proposes such a multi-hop approach to perform knowledge transfer given a single high performing complex model, making it in our opinion, an important methodological contribution.
Abstract（参考訳）: 複雑なハイパフォーマンスモデルから、そのパフォーマンスを高めるために、よりシンプルで低パフォーマンスなモデルへの知識伝達は、説明可能な人工知能、モデル圧縮、堅牢なモデル構築、小さなデータからの学習といった重要な問題に応用されることから、ここ数年で大きな関心を集めてきた。この問題に対する既知のアプローチ(知識蒸留、モデル圧縮、プロフウェイトなど)は、通常、複雑なモデルから選択された単純なモデルへの情報を直接、単純なモデルが訓練されたターゲットまたはリウェイトなトレーニング例を変更するスキームを通して伝達する。本稿では,複雑度を小さくする中間モデルの列を動的に選択・/または構築することにより,複雑なモデルから単純なモデルに情報を転送するメタアプローチを提案する。提案手法は, 前述した手法のいずれかを用いて連続モデル間で情報を伝達し, 1ホップ方式で動作させることで, これらの手法を一般化することができる。実データ実験では、1-hop上で異なるモデルの選択に対して、平均で2-%以上、特定の場合で最大8-%の一貫したゲインが得られることが観察された。また,マルチホップアプローチが従来の1ホップアプローチよりも有益である可能性のある条件を実証的に分析し,他の興味深い知見を報告する。我々の知る限りでは、これは単一のハイパフォーマンスな複雑なモデルに与えられた知識伝達を行うためのマルチホップアプローチを提案する最初の作品であり、我々の意見では重要な方法論的貢献である。

関連論文リスト

Patience Is The Key to Large Language Model Reasoning [0.0]
そこで我々は,モデルに患者推論スタイルを採用することを奨励する簡単な方法を提案する。我々は、肯定的な例として詳細な推論プロセス、否定的な例として単純な回答を生成し、その結果、その反応の完全性を支持するようにモデルを訓練する。この結果から,軽量データセット上でのトレーニングにより,GSM8kのパフォーマンスは最大2.1%向上した。
論文参考訳（メタデータ） (2024-11-20T07:20:48Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。 8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文参考訳（メタデータ） (2023-06-15T10:48:59Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。 SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文参考訳（メタデータ） (2022-10-23T01:33:16Z)
Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文参考訳（メタデータ） (2021-11-18T17:59:35Z)
Model-agnostic multi-objective approach for the evolutionary discovery of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文参考訳（メタデータ） (2021-07-07T11:17:09Z)
Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文参考訳（メタデータ） (2021-07-05T07:18:20Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。