論文の概要: Exploring Software Naturalness through Neural Language Models
- arxiv url: http://arxiv.org/abs/2006.12641v2
- Date: Wed, 24 Jun 2020 13:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 05:31:45.195374
- Title: Exploring Software Naturalness through Neural Language Models
- Title(参考訳): ニューラルネットワークモデルによるソフトウェア自然性探索
- Authors: Luca Buratti, Saurabh Pujar, Mihaela Bornea, Scott McCarley, Yunhui
Zheng, Gaetano Rossiello, Alessandro Morari, Jim Laredo, Veronika Thost,
Yufan Zhuang, Giacomo Domeniconi
- Abstract要約: ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
- 参考スコア(独自算出の注目度): 56.1315223210742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Software Naturalness hypothesis argues that programming languages can be
understood through the same techniques used in natural language processing. We
explore this hypothesis through the use of a pre-trained transformer-based
language model to perform code analysis tasks. Present approaches to code
analysis depend heavily on features derived from the Abstract Syntax Tree (AST)
while our transformer-based language models work on raw source code. This work
is the first to investigate whether such language models can discover AST
features automatically. To achieve this, we introduce a sequence labeling task
that directly probes the language models understanding of AST. Our results show
that transformer based language models achieve high accuracy in the AST tagging
task. Furthermore, we evaluate our model on a software vulnerability
identification task. Importantly, we show that our approach obtains
vulnerability identification results comparable to graph based approaches that
rely heavily on compilers for feature extraction.
- Abstract(参考訳): ソフトウェア自然性仮説(software naturalness hypothesis)は、プログラミング言語は自然言語処理で使われるのと同じ技術で理解することができると主張する。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
現在、コード解析のアプローチは抽象構文木(AST)から派生した機能に大きく依存していますが、トランスフォーマーベースの言語モデルは生のソースコードで動作します。
この研究は、そのような言語モデルがAST機能を自動的に発見できるかどうかを調査する最初のものである。
そこで本研究では,ASTの理解する言語モデルを直接探索するシーケンスラベリングタスクを提案する。
その結果, トランスフォーマティブ言語モデルでは, astタグ処理において高い精度が得られることがわかった。
さらに,ソフトウェア脆弱性識別タスクにおけるモデルの評価を行った。
重要なこととして,本手法は,特徴抽出のためにコンパイラに大きく依存するグラフベースのアプローチに匹敵する脆弱性識別結果を得る。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - Transformer-Based Language Models for Software Vulnerability Detection:
Performance, Model's Security and Platforms [21.943263073426646]
ソフトウェア脆弱性を検出する,大規模なトランスフォーマーベースの言語モデルについて検討する。
私たちはMicrosoftのコマンドラインツールであるCounterfitを使ってモデルのセキュリティチェックを行います。
これらの大きなモデルを実行するためのプラットフォームを選択しながら、推奨事項を提示します。
論文 参考訳(メタデータ) (2022-04-07T04:57:42Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Exploring Neural Models for Parsing Natural Language into First-Order
Logic [10.62143644603835]
英文を1次論理(FOL)に解析する際のニューラルモデルの有用性について検討する。
自然言語文が与えられた場合のシーケンスマッピングタスクとしてFOL解析をモデル化し、LSTMを用いて中間表現に符号化し、次に対応するFOL式で述語を逐次生成するデコーダを用いる。
論文 参考訳(メタデータ) (2020-02-16T09:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。