論文の概要: Beyond Self-learned Attention: Mitigating Attention Bias in
Transformer-based Models Using Attention Guidance
- arxiv url: http://arxiv.org/abs/2402.16790v1
- Date: Mon, 26 Feb 2024 18:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:39:34.208620
- Title: Beyond Self-learned Attention: Mitigating Attention Bias in
Transformer-based Models Using Attention Guidance
- Title(参考訳): 自己学習的注意を超えて:注意誘導を用いた変圧器モデルにおける注意バイアスの緩和
- Authors: Jiri Gesi and Iftekhar Ahmed
- Abstract要約: SyntaGuidはトランスフォーマーベースのモデルを重要なソースコードトークンへ導くための新しいアプローチである。
SyntaGuidは、全体的なパフォーマンスを3.25%改善し、28.3%の誤予測を修正できることを示す。
- 参考スコア(独自算出の注目度): 9.486558126032639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have demonstrated considerable potential for source
code modeling tasks in software engineering. However, they are limited by their
dependence solely on automatic self-attention weight learning mechanisms.
Previous studies have shown that these models overemphasize delimiters added by
tokenizers (e.g., [CLS], [SEP]), which may lead to overlooking essential
information in the original input source code. To address this challenge, we
introduce SyntaGuid, a novel approach that utilizes the observation that
attention weights tend to be biased towards specific source code syntax tokens
and abstract syntax tree (AST) elements in fine-tuned language models when they
make correct predictions. SyntaGuid facilitates the guidance of
attention-weight learning, leading to improved model performance on various
software engineering tasks. We evaluate the effectiveness of SyntaGuid on
multiple tasks and demonstrate that it outperforms existing state-of-the-art
models in overall performance without requiring additional data. Experimental
result shows that SyntaGuid can improve overall performance up to 3.25% and fix
up to 28.3% wrong predictions. Our work represents the first attempt to guide
the attention of Transformer-based models towards critical source code tokens
during fine-tuning, highlighting the potential for enhancing Transformer-based
models in software engineering.
- Abstract(参考訳): トランスフォーマーベースのモデルは、ソフトウェア工学におけるソースコードモデリングタスクにかなりの可能性を示している。
しかし、自動的自己着力重み学習機構のみに依存することで制限される。
以前の研究では、これらのモデルがトークン化剤(例えば[CLS]、[SEP])が付加したデリミッターを過度に強調していることが示されており、元の入力ソースコードに不可欠な情報を見落としてしまう可能性がある。
この課題に対処するため,我々はsyntaguidを導入する。このアプローチは,適切な予測を行う際に,特定のソースコードの構文トークンやast(abstract syntax tree)要素に対して注意重みが偏りやすいという観測結果を活用した新しいアプローチである。
SyntaGuidは、注目度学習のガイダンスを促進し、様々なソフトウェアエンジニアリングタスクにおけるモデルパフォーマンスを改善する。
我々は,複数のタスクにおけるSyntaGuidの有効性を評価し,既存の最先端モデルよりも高い性能を示す。
実験の結果、syntaguidは全体のパフォーマンスを3.25%改善し、28.3%の誤った予測を修正できることがわかった。
我々の研究は、Transformerベースのモデルの注意を微調整中に重要なソースコードトークンへと導く最初の試みであり、ソフトウェア工学におけるTransformerベースのモデルを強化する可能性を強調しています。
関連論文リスト
- Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Learning Active Subspaces and Discovering Important Features with
Gaussian Radial Basis Functions Neural Networks [1.7403133838762443]
モデルの訓練が完了すると抽出できる精度行列のスペクトルに含まれる貴重な情報を示す。
同時に固有ベクトルは入力と潜伏変数の絶対的な変動の観点から関係を強調する。
本結果は,提案モデルが競合相手に対して魅力的な予測性能を与えるだけでなく,有意義かつ解釈可能な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-11T09:54:30Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Automatic Rule Induction for Efficient Semi-Supervised Learning [56.91428251227253]
半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。
事前訓練されたトランスモデルはブラックボックス相関エンジンとして機能し、説明が困難であり、時には信頼性に欠ける振る舞いをする。
本稿では,これらの課題に,簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて対処することを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:50:20Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Assemble Foundation Models for Automatic Code Summarization [9.53949558569201]
ニューラルネットワークに基づく自動コード要約のためのフレキシブルでロバストなアプローチを提案する。
CodeBERT や GPT-2 のような利用可能な基盤モデルを AdaMo という単一のモデルに組み立てる。
本稿では,知識伝達の観点から,連続事前学習と中間微調整という2つの適応型スキームを導入する。
論文 参考訳(メタデータ) (2022-01-13T21:38:33Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - S3VAE: Self-Supervised Sequential VAE for Representation Disentanglement
and Data Generation [31.38329747789168]
自己超越下での逐次データの不整合表現を学習するための逐次変分オートエンコーダを提案する。
我々は、入力データ自体から容易にアクセス可能な監視信号や、市販の機能モデルから得られる利点を利用する。
我々のモデルは入力シーケンスの表現を静的因子と動的因子に容易に切り離すことができる。
論文 参考訳(メタデータ) (2020-05-23T00:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。