Fugu-MT 論文翻訳(概要): Beyond Self-learned Attention: Mitigating Attention Bias in Transformer-based Models Using Attention Guidance

論文の概要: Beyond Self-learned Attention: Mitigating Attention Bias in Transformer-based Models Using Attention Guidance

arxiv url: http://arxiv.org/abs/2402.16790v1
Date: Mon, 26 Feb 2024 18:03:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 19:39:34.208620
Title: Beyond Self-learned Attention: Mitigating Attention Bias in Transformer-based Models Using Attention Guidance
Title（参考訳）: 自己学習的注意を超えて:注意誘導を用いた変圧器モデルにおける注意バイアスの緩和
Authors: Jiri Gesi and Iftekhar Ahmed
Abstract要約: SyntaGuidはトランスフォーマーベースのモデルを重要なソースコードトークンへ導くための新しいアプローチである。 SyntaGuidは、全体的なパフォーマンスを3.25%改善し、28.3%の誤予測を修正できることを示す。
参考スコア（独自算出の注目度）: 9.486558126032639
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based models have demonstrated considerable potential for source code modeling tasks in software engineering. However, they are limited by their dependence solely on automatic self-attention weight learning mechanisms. Previous studies have shown that these models overemphasize delimiters added by tokenizers (e.g., [CLS], [SEP]), which may lead to overlooking essential information in the original input source code. To address this challenge, we introduce SyntaGuid, a novel approach that utilizes the observation that attention weights tend to be biased towards specific source code syntax tokens and abstract syntax tree (AST) elements in fine-tuned language models when they make correct predictions. SyntaGuid facilitates the guidance of attention-weight learning, leading to improved model performance on various software engineering tasks. We evaluate the effectiveness of SyntaGuid on multiple tasks and demonstrate that it outperforms existing state-of-the-art models in overall performance without requiring additional data. Experimental result shows that SyntaGuid can improve overall performance up to 3.25% and fix up to 28.3% wrong predictions. Our work represents the first attempt to guide the attention of Transformer-based models towards critical source code tokens during fine-tuning, highlighting the potential for enhancing Transformer-based models in software engineering.
Abstract（参考訳）: トランスフォーマーベースのモデルは、ソフトウェア工学におけるソースコードモデリングタスクにかなりの可能性を示している。しかし、自動的自己着力重み学習機構のみに依存することで制限される。以前の研究では、これらのモデルがトークン化剤(例えば[CLS]、[SEP])が付加したデリミッターを過度に強調していることが示されており、元の入力ソースコードに不可欠な情報を見落としてしまう可能性がある。この課題に対処するため,我々はsyntaguidを導入する。このアプローチは,適切な予測を行う際に,特定のソースコードの構文トークンやast(abstract syntax tree)要素に対して注意重みが偏りやすいという観測結果を活用した新しいアプローチである。 SyntaGuidは、注目度学習のガイダンスを促進し、様々なソフトウェアエンジニアリングタスクにおけるモデルパフォーマンスを改善する。我々は,複数のタスクにおけるSyntaGuidの有効性を評価し,既存の最先端モデルよりも高い性能を示す。実験の結果、syntaguidは全体のパフォーマンスを3.25%改善し、28.3%の誤った予測を修正できることがわかった。我々の研究は、Transformerベースのモデルの注意を微調整中に重要なソースコードトークンへと導く最初の試みであり、ソフトウェア工学におけるTransformerベースのモデルを強化する可能性を強調しています。

関連論文リスト

UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。 UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T15:53:28Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Can bidirectional encoder become the ultimate winner for downstream applications of foundation models? [1.8120356834558644]
基礎モデルには、事前学習、移動学習、自己指導学習の特徴がある。 BERTは、マスク付き言語モデルを用いて事前学習において、一方通行の言語モデリングのみを使用するという制限を突破した。本稿では,GPT と BERT に基づく一方向モデルと双方向モデルを分析し,その目的に基づいて差分を比較する。
論文参考訳（メタデータ） (2024-11-27T03:31:14Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers [0.21756081703276003]
この論文は、この目標を前進させるモデルの方法と分析を提供する。使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。モデルライクリフと出力品質のばらつきに関する理論的および実証的な知見を提供する。
論文参考訳（メタデータ） (2024-08-29T03:50:24Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。微調整はモデルの機械的操作を変えるのではなく、強化する。
論文参考訳（メタデータ） (2024-02-22T18:59:24Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Automatic Rule Induction for Efficient Semi-Supervised Learning [56.91428251227253]
半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。事前訓練されたトランスモデルはブラックボックス相関エンジンとして機能し、説明が困難であり、時には信頼性に欠ける振る舞いをする。本稿では,これらの課題に,簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて対処することを提案する。
論文参考訳（メタデータ） (2022-05-18T16:50:20Z)
Assemble Foundation Models for Automatic Code Summarization [9.53949558569201]
ニューラルネットワークに基づく自動コード要約のためのフレキシブルでロバストなアプローチを提案する。 CodeBERT や GPT-2 のような利用可能な基盤モデルを AdaMo という単一のモデルに組み立てる。本稿では,知識伝達の観点から,連続事前学習と中間微調整という2つの適応型スキームを導入する。
論文参考訳（メタデータ） (2022-01-13T21:38:33Z)
End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文参考訳（メタデータ） (2021-07-05T19:10:11Z)
S3VAE: Self-Supervised Sequential VAE for Representation Disentanglement and Data Generation [31.38329747789168]
自己超越下での逐次データの不整合表現を学習するための逐次変分オートエンコーダを提案する。我々は、入力データ自体から容易にアクセス可能な監視信号や、市販の機能モデルから得られる利点を利用する。我々のモデルは入力シーケンスの表現を静的因子と動的因子に容易に切り離すことができる。
論文参考訳（メタデータ） (2020-05-23T00:44:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。