Fugu-MT 論文翻訳(概要): CodeArt: Better Code Models by Attention Regularization When Symbols Are Lacking

論文の概要: CodeArt: Better Code Models by Attention Regularization When Symbols Are Lacking

arxiv url: http://arxiv.org/abs/2402.11842v1
Date: Mon, 19 Feb 2024 05:13:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 18:16:29.228769
Title: CodeArt: Better Code Models by Attention Regularization When Symbols Are Lacking
Title（参考訳）: codeart: シンボルの欠如による注意の正規化によるより良いコードモデル
Authors: Zian Su, Xiangzhe Xu, Ziyang Huang, Zhuo Zhang, Yapeng Ye, Jianjun Huang, Xiangyu Zhang
Abstract要約: トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。しかし、それらの効果は、シンボルが欠落しているか、情報がないときに低下する。本稿では,シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。
参考スコア（独自算出の注目度）: 12.458135956476639
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Transformer based code models have impressive performance in many software engineering tasks. However, their effectiveness degrades when symbols are missing or not informative. The reason is that the model may not learn to pay attention to the right correlations/contexts without the help of symbols. We propose a new method to pre-train general code models when symbols are lacking. We observe that in such cases, programs degenerate to something written in a very primitive language. We hence propose to use program analysis to extract contexts a priori (instead of relying on symbols and masked language modeling as in vanilla models). We then leverage a novel attention masking method to only allow the model attending to these contexts, e.g., bi-directional program dependence transitive closures and token co-occurrences. In the meantime, the inherent self-attention mechanism is utilized to learn which of the allowed attentions are more important compared to others. To realize the idea, we enhance the vanilla tokenization and model architecture of a BERT model, construct and utilize attention masks, and introduce a new pre-training algorithm. We pre-train this BERT-like model from scratch, using a dataset of 26 million stripped binary functions with explicit program dependence information extracted by our tool. We apply the model in three downstream tasks: binary similarity, type inference, and malware family classification. Our pre-trained model can improve the SOTAs in these tasks from 53% to 64%, 49% to 60%, and 74% to 94%, respectively. It also substantially outperforms other general pre-training techniques of code understanding models.
Abstract（参考訳）: トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。しかし、その効果はシンボルが欠落したり、情報的でない場合に低下する。理由は、モデルがシンボルの助けなしに適切な相関やコンテキストに注意を払うことを学ばないからだ。シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。このような場合、プログラムは非常に原始的な言語で書かれたものに縮退する。そこで,プログラム解析を用いて(バニラモデルのように記号やマスキング言語モデルに頼るのではなく)事前の文脈を抽出することを提案する。次に,これらの文脈に適応するモデル,例えば双方向プログラム依存推移クロージャやトークン共起といったモデルのみを許容するために,新しい注意マスキング手法を利用する。その間、本質的な自己注意機構を利用して、他と比較してどの注意がより重要であるかを学ぶ。このアイデアを実現するために,BERTモデルのバニラトークン化とモデルアーキテクチャを強化し,アテンションマスクの構築と活用を行い,新しい事前学習アルゴリズムを導入する。ツールによって抽出された明示的なプログラム依存情報を持つ2600万個の削除されたバイナリ関数のデータセットを用いて、このBERTライクなモデルをスクラッチから事前訓練する。このモデルを,バイナリ類似性,型推論,マルウェアファミリー分類という3つの下流タスクに適用した。我々の事前学習モデルでは,これらのタスクのSOTAを53%から64%,49%から60%,74%から94%に改善することができる。また、コード理解モデルの一般的な事前学習技術を大幅に上回っている。

関連論文リスト

Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
Can bidirectional encoder become the ultimate winner for downstream applications of foundation models? [1.8120356834558644]
基礎モデルには、事前学習、移動学習、自己指導学習の特徴がある。 BERTは、マスク付き言語モデルを用いて事前学習において、一方通行の言語モデリングのみを使用するという制限を突破した。本稿では,GPT と BERT に基づく一方向モデルと双方向モデルを分析し,その目的に基づいて差分を比較する。
論文参考訳（メタデータ） (2024-11-27T03:31:14Z)
Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文参考訳（メタデータ） (2024-11-12T04:25:31Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Beyond Self-learned Attention: Mitigating Attention Bias in Transformer-based Models Using Attention Guidance [9.486558126032639]
SyntaGuidはトランスフォーマーベースのモデルを重要なソースコードトークンへ導くための新しいアプローチである。 SyntaGuidは、全体的なパフォーマンスを3.25%改善し、28.3%の誤予測を修正できることを示す。
論文参考訳（メタデータ） (2024-02-26T18:03:50Z)
StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文参考訳（メタデータ） (2024-02-25T13:53:49Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
Who's Harry Potter? Approximate Unlearning in LLMs [4.821438899378393]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-03T17:48:14Z)
Robust Attack Graph Generation [11.419463747286716]
入力修正に頑健なオートマトンモデルを学習する手法を提案する。繰り返し、シーケンスを学習されたモデルにアライメントし、シーケンスをアライメントされたバージョンに修正し、モデルを再学習する。
論文参考訳（メタデータ） (2022-06-15T19:26:39Z)
What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文参考訳（メタデータ） (2022-04-12T14:19:49Z)
Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文参考訳（メタデータ） (2021-10-04T08:51:36Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。