論文の概要: Beyond Self-learned Attention: Mitigating Attention Bias in
Transformer-based Models Using Attention Guidance
- arxiv url: http://arxiv.org/abs/2402.16790v1
- Date: Mon, 26 Feb 2024 18:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:39:34.208620
- Title: Beyond Self-learned Attention: Mitigating Attention Bias in
Transformer-based Models Using Attention Guidance
- Title(参考訳): 自己学習的注意を超えて:注意誘導を用いた変圧器モデルにおける注意バイアスの緩和
- Authors: Jiri Gesi and Iftekhar Ahmed
- Abstract要約: SyntaGuidはトランスフォーマーベースのモデルを重要なソースコードトークンへ導くための新しいアプローチである。
SyntaGuidは、全体的なパフォーマンスを3.25%改善し、28.3%の誤予測を修正できることを示す。
- 参考スコア(独自算出の注目度): 9.486558126032639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have demonstrated considerable potential for source
code modeling tasks in software engineering. However, they are limited by their
dependence solely on automatic self-attention weight learning mechanisms.
Previous studies have shown that these models overemphasize delimiters added by
tokenizers (e.g., [CLS], [SEP]), which may lead to overlooking essential
information in the original input source code. To address this challenge, we
introduce SyntaGuid, a novel approach that utilizes the observation that
attention weights tend to be biased towards specific source code syntax tokens
and abstract syntax tree (AST) elements in fine-tuned language models when they
make correct predictions. SyntaGuid facilitates the guidance of
attention-weight learning, leading to improved model performance on various
software engineering tasks. We evaluate the effectiveness of SyntaGuid on
multiple tasks and demonstrate that it outperforms existing state-of-the-art
models in overall performance without requiring additional data. Experimental
result shows that SyntaGuid can improve overall performance up to 3.25% and fix
up to 28.3% wrong predictions. Our work represents the first attempt to guide
the attention of Transformer-based models towards critical source code tokens
during fine-tuning, highlighting the potential for enhancing Transformer-based
models in software engineering.
- Abstract(参考訳): トランスフォーマーベースのモデルは、ソフトウェア工学におけるソースコードモデリングタスクにかなりの可能性を示している。
しかし、自動的自己着力重み学習機構のみに依存することで制限される。
以前の研究では、これらのモデルがトークン化剤(例えば[CLS]、[SEP])が付加したデリミッターを過度に強調していることが示されており、元の入力ソースコードに不可欠な情報を見落としてしまう可能性がある。
この課題に対処するため,我々はsyntaguidを導入する。このアプローチは,適切な予測を行う際に,特定のソースコードの構文トークンやast(abstract syntax tree)要素に対して注意重みが偏りやすいという観測結果を活用した新しいアプローチである。
SyntaGuidは、注目度学習のガイダンスを促進し、様々なソフトウェアエンジニアリングタスクにおけるモデルパフォーマンスを改善する。
我々は,複数のタスクにおけるSyntaGuidの有効性を評価し,既存の最先端モデルよりも高い性能を示す。
実験の結果、syntaguidは全体のパフォーマンスを3.25%改善し、28.3%の誤った予測を修正できることがわかった。
我々の研究は、Transformerベースのモデルの注意を微調整中に重要なソースコードトークンへと導く最初の試みであり、ソフトウェア工学におけるTransformerベースのモデルを強化する可能性を強調しています。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers [0.21756081703276003]
この論文は、この目標を前進させるモデルの方法と分析を提供する。
使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。
モデルライクリフと出力品質のばらつきに関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-08-29T03:50:24Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Automatic Rule Induction for Efficient Semi-Supervised Learning [56.91428251227253]
半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。
事前訓練されたトランスモデルはブラックボックス相関エンジンとして機能し、説明が困難であり、時には信頼性に欠ける振る舞いをする。
本稿では,これらの課題に,簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて対処することを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:50:20Z) - Assemble Foundation Models for Automatic Code Summarization [9.53949558569201]
ニューラルネットワークに基づく自動コード要約のためのフレキシブルでロバストなアプローチを提案する。
CodeBERT や GPT-2 のような利用可能な基盤モデルを AdaMo という単一のモデルに組み立てる。
本稿では,知識伝達の観点から,連続事前学習と中間微調整という2つの適応型スキームを導入する。
論文 参考訳(メタデータ) (2022-01-13T21:38:33Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - S3VAE: Self-Supervised Sequential VAE for Representation Disentanglement
and Data Generation [31.38329747789168]
自己超越下での逐次データの不整合表現を学習するための逐次変分オートエンコーダを提案する。
我々は、入力データ自体から容易にアクセス可能な監視信号や、市販の機能モデルから得られる利点を利用する。
我々のモデルは入力シーケンスの表現を静的因子と動的因子に容易に切り離すことができる。
論文 参考訳(メタデータ) (2020-05-23T00:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。