論文の概要: Bringing Structure to Naturalness: On the Naturalness of ASTs
- arxiv url: http://arxiv.org/abs/2504.08234v1
- Date: Fri, 11 Apr 2025 03:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:20.040692
- Title: Bringing Structure to Naturalness: On the Naturalness of ASTs
- Title(参考訳): 自然に構造をもたらす:ASTの自然性について
- Authors: Profir-Petru Pârţachi, Mahito Sugiyama,
- Abstract要約: 我々は、コードの構造的表現が同様に統計的に予測可能であること、すなわち、コードの構造的ビューも自然であることを示す。
このような自然性信号が、ジャスト・イン・タイム欠陥予測の最先端結果にどのように利用されるかを示す。
- 参考スコア(独自算出の注目度): 9.100580570005407
- License:
- Abstract: Source code comes in different shapes and forms. Previous research has already shown code to be more predictable than natural language as well as highlighted its statistical predictability at the token level: source code can be natural. More recently, the structure of code -- control flow, syntax graphs, abstract syntax trees etc. -- has been successfully used to improve the state-of-the-art on numerous tasks: code suggestion, code summarisation, method naming etc. This body of work implicitly assumes that structured representations of code are similarly statistically predictable, i.e. that a structured view of code is also natural. We consider that this view should be made explicit and propose directly studying the Structured Naturalness Hypothesis. Beyond just naming existing research that assumes this hypothesis and formulating it, we also provide evidence in the case of trees: TreeLSTM models over ASTs for some languages, such as Ruby, are competitive with $n$-gram models while handling the syntax token issue highlighted by previous research 'for free'. For other languages, such as Java or Python, we find tree models to perform worse, suggesting that downstream task improvement is uncorrelated to the language modelling task. Further, we show how such naturalness signals can be employed for near state-of-the-art results on just-in-time defect prediction while forgoing manual feature engineering work.
- Abstract(参考訳): ソースコードは形や形が違う。
これまでの研究では、コードは自然言語よりも予測可能であることがすでに示されており、トークンレベルでの統計的予測可能性を強調している。
最近では、コード構造 -- 制御フロー、構文グラフ、抽象構文木など -- が、コード提案、コード要約、メソッド命名など、多くのタスクにおける最先端の改善に成功している。
この研究の本体は、コードの構造的表現が同様に統計的に予測可能であることを暗黙的に仮定している。
我々は、この見解を明確化し、構造化自然性仮説を直接研究すべきであると考えている。
この仮説を仮定し、それを定式化する既存の研究の命名以外にも、ツリーの場合にもエビデンスがある。 Rubyのような一部の言語でASTよりもツリーLSTMモデルは、$n$-gramモデルと競合する一方で、以前の研究で強調された構文トークンの問題に"無料"で対処します。
JavaやPythonのような他の言語では、木モデルの方がパフォーマンスが悪く、下流のタスク改善は言語モデリングタスクとは無関係である。
さらに、このような自然性信号が、手動による特徴工学作業を行いながら、ジャスト・イン・タイムの欠陥予測の最先端結果にどのように使われるかを示す。
関連論文リスト
- CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction [47.17755403213469]
我々は,文脈的に構築されたコードに埋め込まれた多様な推論パターンを凝縮する新しい手法であるCodeI/Oを提案する。
与えられたコードとテストケースを完全に自然言語で予測するためにモデルをトレーニングすることで、それらを普遍的な推論プリミティブに公開します。
実験の結果、CodeI/Oは記号、科学、論理学、数学と数値、常識推論タスクに一貫した改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-02-11T07:26:50Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - SCALE: Constructing Structured Natural Language Comment Trees for Software Vulnerability Detection [36.37244302912536]
本稿では,事前学習モデルに基づく構造化自然言語コメント木に基づくvulnerAbiLity dEtectionフレームワークを提案する。
提案したStructured Natural Language Comment Tree (SCT)は、コードステートメントのセマンティクスとコード実行シーケンスを統合する。
論文 参考訳(メタデータ) (2024-03-28T02:20:03Z) - CodeKGC: Code Language Model for Generative Knowledge Graph Construction [46.220237225553234]
コードのような構造化データに基づいて訓練された大規模な生成言語モデルは、構造予測や推論タスクのために自然言語を理解する素晴らしい能力を示してきた。
知識グラフ内の意味構造を効果的に活用するスキーマ対応プロンプトを開発した。
実験結果から,提案手法はベースラインと比較してベンチマークデータセットの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-18T15:12:34Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。