Fugu-MT 論文翻訳(概要): A Simple Hash-Based Early Exiting Approach For Language Understanding and Generation

論文の概要: A Simple Hash-Based Early Exiting Approach For Language Understanding and Generation

arxiv url: http://arxiv.org/abs/2203.01670v1
Date: Thu, 3 Mar 2022 12:02:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-04 15:16:52.176251
Title: A Simple Hash-Based Early Exiting Approach For Language Understanding and Generation
Title（参考訳）: 単純ハッシュに基づく言語理解と生成のための早期解法
Authors: Tianxiang Sun, Xiangyang Liu, Wei Zhu, Zhichao Geng, Lingling Wu, Yilong He, Yuan Ni, Guotong Xie, Xuanjing Huang, Xipeng Qiu
Abstract要約: 早期終了は、難易度の推定に応じて異なるレイヤでインスタンスを終了させることを可能にする。我々はハッシュベースの早期退避アプローチ(HashEE)を提案し,各トークンを固定された退避層に割り当てるために,学習から退避するモジュールをハッシュ関数に置き換える。分類,回帰,生成タスクに関する実験結果から,HashEEはFLOPを少なくして高い性能を達成できることが示された。
参考スコア（独自算出の注目度）: 77.85086491395981
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Early exiting allows instances to exit at different layers according to the estimation of difficulty. Previous works usually adopt heuristic metrics such as the entropy of internal outputs to measure instance difficulty, which suffers from generalization and threshold-tuning. In contrast, learning to exit, or learning to predict instance difficulty is a more appealing way. Though some effort has been devoted to employing such "learn-to-exit" modules, it is still unknown whether and how well the instance difficulty can be learned. As a response, we first conduct experiments on the learnability of instance difficulty, which demonstrates that modern neural models perform poorly on predicting instance difficulty. Based on this observation, we propose a simple-yet-effective Hash-based Early Exiting approach (HashEE) that replaces the learn-to-exit modules with hash functions to assign each token to a fixed exiting layer. Different from previous methods, HashEE requires no internal classifiers nor extra parameters, and therefore is more efficient. Experimental results on classification, regression, and generation tasks demonstrate that HashEE can achieve higher performance with fewer FLOPs and inference time compared with previous state-of-the-art early exiting methods.
Abstract（参考訳）: 早期終了は、難易度の推定に応じて異なるレイヤでインスタンスを終了させることを可能にする。以前の著作では、通常、一般化やしきい値調整に苦しむインスタンスの難易度を測定するために、内部出力のエントロピーのようなヒューリスティックな指標が採用されている。対照的に、退出する学習やインスタンスの難易度を予測する学習は、より魅力的な方法です。このような "learn-to-exit" モジュールの使用にいくつかの努力が注がれているが、インスタンスの難しさがどの程度うまく学べるかは、まだ不明である。結果として、まずインスタンス難易度を学習する実験を行い、現代のニューラルモデルがインスタンス難易度を予測できないことを示した。そこで本研究では,提案手法を応用したハッシュ・ツー・エクストイット・モジュールをハッシュ関数に置き換え,各トークンを固定エグジット層に割り当てる手法を提案する。従来の方法とは異なり、HashEEは内部分類器や余分なパラメータを必要としないため、より効率的である。分類,回帰,生成タスクに関する実験結果から,HashEEは従来の最先端早期出口法と比較してFLOPや推論時間が少なく,高い性能を達成できることが示された。

関連論文リスト

Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文参考訳（メタデータ） (2025-07-13T19:36:17Z)
A Neuro-inspired Interpretation of Unlearning in Large Language Models through Sample-level Unlearning Difficulty [12.382999548648726]
既存の研究では、サンプル全体にわたって一様でない学習困難が想定されている。本稿では,サンプルレベルの未学習難易度を定量化するためのメモリ除去困難度(mathrmMRD$)尺度を提案する。また、既存の未学習アルゴリズムを最適化するために、$mathrmMRD$ベースの重み付きサンプリング手法を提案する。
論文参考訳（メタデータ） (2025-04-09T07:48:10Z)
Machine Unlearning in Forgettability Sequence [22.497699136603877]
未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす要因を同定する。本稿では,RankingモジュールとSeqUnlearnモジュールからなる一般の未学習フレームワーク RSU を提案する。
論文参考訳（メタデータ） (2024-10-09T01:12:07Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
ConsistentEE: A Consistent and Hardness-Guided Early Exiting Method for Accelerating Language Models Inference [21.24566458648584]
トレーニングと推論に一貫性のある早期退避手法であるConsistentEEを提案する。インスタンスが終了するか継続するかを決定するためにポリシーネットワークが追加される。記憶層を報酬関数設計に組み込むことで、"簡単"なインスタンスがより加速に集中できるようにします。
論文参考訳（メタデータ） (2023-12-19T06:16:13Z)
Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-26T12:43:25Z)
Difficulty-Net: Learning to Predict Difficulty for Long-Tailed Recognition [5.977483447975081]
メタラーニングフレームワークにおいて,モデルの性能を用いてクラスの難易度を予測することを学習するDifficulty-Netを提案する。本稿では,相対的難易度と運転者損失という2つの重要な概念を紹介する。提案手法の有効性を実証した。
論文参考訳（メタデータ） (2022-09-07T07:04:08Z)
Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文参考訳（メタデータ） (2022-03-14T20:13:21Z)
Hard Example Guided Hashing for Image Retrieval [3.606866431185676]
ハードサンプルの学習能力に影響を及ぼす主な要因は2つあり、これは弱い特徴抽出とハードサンプルの不足である。本稿では,難解な例から重要な特徴を抽出し,正確な意味情報を持つハッシュコードを得るための,新しいエンドツーエンドモデルを提案する。 CIFAR-10 と NUS-WIDE による実験結果から,本モデルが主流のハッシュ画像検索手法より優れていることが示された。
論文参考訳（メタデータ） (2021-12-27T08:24:10Z)
One Loss for All: Deep Hashing with a Single Cosine Similarity based Learning Objective [86.48094395282546]
ディープハッシュモデルは通常、学習されたバイナリハッシュコードの識別と量子化エラーの最小化という2つの学習目標を持つ。本稿では,1つの学習目的しか持たない新しい深層ハッシュモデルを提案する。我々のモデルは,3つの大規模インスタンス検索ベンチマークにおいて,最先端のマルチロスハッシュモデルより優れている。
論文参考訳（メタデータ） (2021-09-29T14:27:51Z)
Efficient First-Order Contextual Bandits: Prediction, Allocation, and Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。 1次保証は統計的およびオンライン学習において比較的よく理解されている。三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文参考訳（メタデータ） (2021-07-05T19:20:34Z)
Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文参考訳（メタデータ） (2020-10-09T14:18:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。