論文の概要: On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words
- arxiv url: http://arxiv.org/abs/2505.18444v1
- Date: Sat, 24 May 2025 00:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:59:15.533485
- Title: On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words
- Title(参考訳): クローズド・シンタクティック・カテゴリー語を含む識別子名の構造と意味について
- Authors: Christian D. Newman, Anthony Peruma, Eman Abdullah AlOmar, Mahie Crabbe, Syreen Banabilah, Reem S. AlSuhaibani, Michael J. Decker, Farhad Akhbardeh, Marcos Zampieri, Mohamed Wiem Mkaouer, Jonathan I. Maletic,
- Abstract要約: 本稿では,文法パターンの概念を拡張した識別子名の言語構造について検討する。
ソフトウェア工学では滅多に研究されない、クローズドな構文カテゴリーに焦点が当てられている。
閉圏文法パターンとプログラム行動の関係を解析した。
- 参考スコア(独自算出の注目度): 19.94735883254009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifier names are crucial components of code, serving as primary clues for developers to understand program behavior. This paper investigates the linguistic structure of identifier names by extending the concept of grammar patterns; representations of the part-of-speech (PoS) sequences that underlie identifier phrases. The specific focus is on closed syntactic categories (e.g., prepositions, conjunctions, determiners), which are rarely studied in software engineering despite their central role in general natural language. The Closed Category Identifier Dataset (CCID) is presented, a new manually annotated dataset of 1,275 identifiers drawn from 30 open-source systems. The relationship between closed-category grammar patterns and program behavior is analyzed using grounded theory coding, statistical, and pattern analysis. The results reveal recurring structures that developers use to express control flow, data transformation, temporal reasoning, and behavioral roles through naming. This study contributes an empirical foundation for understanding how developers adapt linguistic resources to encode behavior in source code. By analyzing closed-category terms and their associated grammar patterns, the work highlights a previously underexplored dimension of identifier semantics and identifies promising directions for future research in naming support, comprehension, and education.
- Abstract(参考訳): 識別子名はコードの重要なコンポーネントであり、開発者がプログラムの振る舞いを理解するための主要な手がかりとなる。
本稿では、文法パターンの概念を拡張して識別子名の言語構造を解明し、識別子句を基盤としたPoS(Part-of-speech)配列の表現について述べる。
特定の焦点は閉構文カテゴリー(例えば、前置詞、接続詞、決定詞)であり、一般の自然言語において中心的な役割を担っているにもかかわらず、ソフトウェア工学において滅多に研究されていない。
The Closed Category Identifier Dataset (CCID)は、30のオープンソースシステムから引き出された1,275の識別子を手動でアノテートしたデータセットである。
閉圏文法パターンとプログラム行動の関係を, 基底理論符号化, 統計解析, パターン解析を用いて解析する。
その結果、開発者が名前を通して制御フロー、データ変換、時間的推論、行動的役割を表現するために使用する繰り返し構造が明らかになった。
本研究は,開発者がソースコードの振る舞いを符号化するために言語資源をどのように適応するかを理解するための実証的基礎となる。
クローズド・カテゴリ用語とその関連する文法パターンを解析することにより、以前は未探索の識別子意味論の次元を強調し、命名支援、理解、教育における将来の研究のための将来的な方向を特定する。
関連論文リスト
- How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。
本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。
従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文 参考訳(メタデータ) (2024-02-22T23:11:08Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - A Self-supervised Representation Learning of Sentence Structure for
Authorship Attribution [3.5991811164452923]
文の構造表現を学習するための自己教師型フレームワークを提案する。
本研究では,異なる探索タスクを用いて文の構造的表現を学習し,著者帰属タスクに活用する。
論文 参考訳(メタデータ) (2020-10-14T02:57:10Z) - OCoR: An Overlapping-Aware Code Retriever [15.531119719750807]
自然言語による記述が与えられた場合、コード検索は一連のコードの中で最も関連性の高いコードを探すことを目的としている。
既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。
我々はOCoRという新しいニューラルアーキテクチャを提案し、オーバーラップを捉えるために2つの特別に設計されたコンポーネントを紹介した。
論文 参考訳(メタデータ) (2020-08-12T09:43:35Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。