Fugu-MT 論文翻訳(概要): Guiding Attention for Self-Supervised Learning with Transformers

論文の概要: Guiding Attention for Self-Supervised Learning with Transformers

arxiv url: http://arxiv.org/abs/2010.02399v1
Date: Tue, 6 Oct 2020 00:04:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 06:29:14.163123
Title: Guiding Attention for Self-Supervised Learning with Transformers
Title（参考訳）: 変圧器を用いた自己指導型学習の指導
Authors: Ameet Deshpande, Karthik Narasimhan
Abstract要約: 双方向変換器を用いた効率的な自己教師型学習を実現する手法を提案する。我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。
参考スコア（独自算出の注目度）: 24.785500242464646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a simple and effective technique to allow for efficient self-supervised learning with bi-directional Transformers. Our approach is motivated by recent studies demonstrating that self-attention patterns in trained models contain a majority of non-linguistic regularities. We propose a computationally efficient auxiliary loss function to guide attention heads to conform to such patterns. Our method is agnostic to the actual pre-training objective and results in faster convergence of models as well as better performance on downstream tasks compared to the baselines, achieving state of the art results in low-resource settings. Surprisingly, we also find that linguistic properties of attention heads are not necessarily correlated with language modeling performance.
Abstract（参考訳）: 本稿では,双方向トランスフォーマを用いた効率的な自己教師あり学習を実現するための,簡便で効果的な手法を提案する。我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。このようなパターンに合致するように注意ヘッドを誘導する計算効率のよい補助損失関数を提案する。本手法は,実際の事前学習目標と無関係であり,モデルの収束が早くなり,ベースラインと比較してダウンストリームタスクのパフォーマンスが向上し,低リソース設定で最先端の成果が得られる。また,注目頭部の言語特性が言語モデルの性能と必ずしも相関していないことも判明した。

関連論文リスト

Platonic Grounding for Efficient Multimodal Language Models [22.715168904364756]
我々は、事前訓練されたモデルの整合性に依存する既存のマルチモーダルフレームワークをモチベーションし、簡単な修正を提案する。私たちの研究は、事前学習されたモデルをより大規模なシステムに効率的に組み合わせることにも影響します。
論文参考訳（メタデータ） (2025-04-27T18:56:26Z)
Leveraging counterfactual concepts for debugging and improving CNN model performance [1.1049608786515839]
本稿では,画像分類タスクにおけるCNNモデルの性能向上を目的とした,反現実的概念を活用することを提案する。提案手法は, 意思決定プロセスにおいて重要なフィルタを特定するために, 対実的推論を利用する。反事実的説明を取り入れることで、未知のモデル予測を検証し、誤分類を識別する。
論文参考訳（メタデータ） (2025-01-19T15:50:33Z)
Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文参考訳（メタデータ） (2024-12-27T04:37:06Z)
Efficient Test-Time Prompt Tuning for Vision-Language Models [41.90997623029582]
Self-TPTは、効率的なテストタイムプロンプトチューニングにセルフ教師付き学習を活用するフレームワークである。本稿では,Self-TPTが推論コストを大幅に削減するだけでなく,最先端の性能も向上することを示す。
論文参考訳（メタデータ） (2024-08-11T13:55:58Z)
DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。 ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文参考訳（メタデータ） (2024-05-22T15:52:52Z)
Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-26T18:41:23Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Learning Rich Nearest Neighbor Representations from Self-supervised Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文参考訳（メタデータ） (2021-10-19T22:24:57Z)
Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文参考訳（メタデータ） (2021-09-10T17:19:56Z)
Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文参考訳（メタデータ） (2021-07-10T02:13:25Z)
On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文参考訳（メタデータ） (2020-10-24T04:30:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。