論文の概要: On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words
- arxiv url: http://arxiv.org/abs/2505.18444v2
- Date: Wed, 02 Jul 2025 14:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:57.630429
- Title: On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words
- Title(参考訳): クローズド・シンタクティック・カテゴリー語を含む識別子名の構造と意味について
- Authors: Christian D. Newman, Anthony Peruma, Eman Abdullah AlOmar, Mahie Crabbe, Syreen Banabilah, Reem S. AlSuhaibani, Michael J. Decker, Farhad Akhbardeh, Marcos Zampieri, Mohamed Wiem Mkaouer, Jonathan I. Maletic,
- Abstract要約: 本稿では,文法パターンの概念を拡張した識別子名の言語構造について検討する。
特定の焦点はクローズドな構文カテゴリーであり、ソフトウェア工学で研究されることはめったにない。
閉圏文法パターンとプログラムの振る舞いの関係を、基底理論に着想を得た符号化、統計、パターン分析を用いて解析する。
- 参考スコア(独自算出の注目度): 19.94735883254009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifier names are crucial components of code, serving as primary clues for developers to understand program behavior. This paper investigates the linguistic structure of identifier names by extending the concept of grammar patterns, which represent the part-of-speech (PoS) sequences underlying identifier phrases. The specific focus is on closed syntactic categories (e.g., prepositions, conjunctions, determiners), which are rarely studied in software engineering despite their central role in general natural language. To study these categories, the Closed Category Identifier Dataset (CCID), a new manually annotated dataset of 1,275 identifiers drawn from 30 open-source systems, is constructed and presented. The relationship between closed-category grammar patterns and program behavior is then analyzed using grounded-theory-inspired coding, statistical, and pattern analysis. The results reveal recurring structures that developers use to express concepts such as control flow, data transformation, temporal reasoning, and other behavioral roles through naming. This work contributes an empirical foundation for understanding how linguistic resources encode behavior in identifier names and supports new directions for research in naming, program comprehension, and education.
- Abstract(参考訳): 識別子名はコードの重要なコンポーネントであり、開発者がプログラムの振る舞いを理解するための主要な手がかりとなる。
本稿では, 文法パターンの概念を拡張することで, 識別子の言語構造を解明する。
特定の焦点は閉構文カテゴリー(例えば、前置詞、接続詞、決定詞)であり、一般の自然言語において中心的な役割を担っているにもかかわらず、ソフトウェア工学において滅多に研究されていない。
これらのカテゴリを研究するために、30のオープンソースシステムから引き出された1,275の識別子を手動でアノテートした新しいデータセットであるCCID(Closed Category Identifier Dataset)を構築し、提示する。
閉圏文法パターンとプログラムの振る舞いの関係を、基底理論に着想を得た符号化、統計、パターン分析を用いて解析する。
その結果、開発者が名前を通して制御フロー、データ変換、時間的推論、その他の行動的役割といった概念を表現するために使用する繰り返し構造が明らかになった。
この研究は、言語資源が識別子名にどのように振舞いをエンコードするかを理解するための実証的な基盤を提供し、命名、プログラム理解、教育研究の新しい方向性を支援する。
関連論文リスト
- How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。
本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。
従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文 参考訳(メタデータ) (2024-02-22T23:11:08Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - A Self-supervised Representation Learning of Sentence Structure for
Authorship Attribution [3.5991811164452923]
文の構造表現を学習するための自己教師型フレームワークを提案する。
本研究では,異なる探索タスクを用いて文の構造的表現を学習し,著者帰属タスクに活用する。
論文 参考訳(メタデータ) (2020-10-14T02:57:10Z) - OCoR: An Overlapping-Aware Code Retriever [15.531119719750807]
自然言語による記述が与えられた場合、コード検索は一連のコードの中で最も関連性の高いコードを探すことを目的としている。
既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。
我々はOCoRという新しいニューラルアーキテクチャを提案し、オーバーラップを捉えるために2つの特別に設計されたコンポーネントを紹介した。
論文 参考訳(メタデータ) (2020-08-12T09:43:35Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。