Fugu-MT 論文翻訳(概要): On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words

論文の概要: On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words

arxiv url: http://arxiv.org/abs/2505.18444v1
Date: Sat, 24 May 2025 00:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-03 13:59:15.533485
Title: On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words
Title（参考訳）: クローズド・シンタクティック・カテゴリー語を含む識別子名の構造と意味について
Authors: Christian D. Newman, Anthony Peruma, Eman Abdullah AlOmar, Mahie Crabbe, Syreen Banabilah, Reem S. AlSuhaibani, Michael J. Decker, Farhad Akhbardeh, Marcos Zampieri, Mohamed Wiem Mkaouer, Jonathan I. Maletic,
Abstract要約: 本稿では,文法パターンの概念を拡張した識別子名の言語構造について検討する。ソフトウェア工学では滅多に研究されない、クローズドな構文カテゴリーに焦点が当てられている。閉圏文法パターンとプログラム行動の関係を解析した。
参考スコア（独自算出の注目度）: 19.94735883254009
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Identifier names are crucial components of code, serving as primary clues for developers to understand program behavior. This paper investigates the linguistic structure of identifier names by extending the concept of grammar patterns; representations of the part-of-speech (PoS) sequences that underlie identifier phrases. The specific focus is on closed syntactic categories (e.g., prepositions, conjunctions, determiners), which are rarely studied in software engineering despite their central role in general natural language. The Closed Category Identifier Dataset (CCID) is presented, a new manually annotated dataset of 1,275 identifiers drawn from 30 open-source systems. The relationship between closed-category grammar patterns and program behavior is analyzed using grounded theory coding, statistical, and pattern analysis. The results reveal recurring structures that developers use to express control flow, data transformation, temporal reasoning, and behavioral roles through naming. This study contributes an empirical foundation for understanding how developers adapt linguistic resources to encode behavior in source code. By analyzing closed-category terms and their associated grammar patterns, the work highlights a previously underexplored dimension of identifier semantics and identifies promising directions for future research in naming support, comprehension, and education.
Abstract（参考訳）: 識別子名はコードの重要なコンポーネントであり、開発者がプログラムの振る舞いを理解するための主要な手がかりとなる。本稿では、文法パターンの概念を拡張して識別子名の言語構造を解明し、識別子句を基盤としたPoS(Part-of-speech)配列の表現について述べる。特定の焦点は閉構文カテゴリー(例えば、前置詞、接続詞、決定詞)であり、一般の自然言語において中心的な役割を担っているにもかかわらず、ソフトウェア工学において滅多に研究されていない。 The Closed Category Identifier Dataset (CCID)は、30のオープンソースシステムから引き出された1,275の識別子を手動でアノテートしたデータセットである。閉圏文法パターンとプログラム行動の関係を, 基底理論符号化, 統計解析, パターン解析を用いて解析する。その結果、開発者が名前を通して制御フロー、データ変換、時間的推論、行動的役割を表現するために使用する繰り返し構造が明らかになった。本研究は,開発者がソースコードの振る舞いを符号化するために言語資源をどのように適応するかを理解するための実証的基礎となる。クローズド・カテゴリ用語とその関連する文法パターンを解析することにより、以前は未探索の識別子意味論の次元を強調し、命名支援、理解、教育における将来の研究のための将来的な方向を特定する。

関連論文リスト

How Do Language Models Acquire Character-Level Information? [13.183615639007941]
制御条件下で訓練されたLMと、標準条件下で訓練されたLMとを比較して、モデルがどのように文字レベルの知識を取得するかを分析する。分析の結果, トークン化に起因して, マージ規則と正書法制約が一次要因となることが明らかとなった。
論文参考訳（メタデータ） (2026-02-05T06:19:51Z)
X-Blocks: Linguistic Building Blocks of Natural Language Explanations for Automated Vehicles [14.815119135668247]
自然言語の説明は、自動車両(AV)の信頼性と受容を確立する上で重要な役割を担っている本稿では,AVに対する自然言語説明の言語的構成要素を,文脈,構文,語彙の3段階で識別する階層的分析フレームワークであるX-Blocksを紹介する。 RACEの精度は91.45パーセントで、ヒトアノテーター契約のケースに対するCohens Kappaは0.91である。
論文参考訳（メタデータ） (2026-02-02T07:18:25Z)
Identifier Name Similarities: An Exploratory Study [3.7420775485568294]
本稿では,ソフトウェアプロジェクトにおける識別子名類似性の発生に関する予備的知見を示す。我々は、コード理解、保守性、開発者間のコラボレーションに対する識別子名類似性の影響を分析し評価するプラットフォームを研究者に提供する最初の分類学を構想する。
論文参考訳（メタデータ） (2025-07-24T04:13:26Z)
From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T15:17:08Z)
How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文参考訳（メタデータ） (2024-02-22T23:11:08Z)
Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文参考訳（メタデータ） (2023-10-11T18:56:15Z)
Assessment of Pre-Trained Models Across Languages and Grammars [7.466159270333272]
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元することを目的としている。その結果、事前学習された単語ベクトルは、依存関係よりも構文の連続表現を好まないことが明らかとなった。プレトレーニングデータ中の言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。
論文参考訳（メタデータ） (2023-09-20T09:23:36Z)
Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文参考訳（メタデータ） (2023-05-26T06:50:21Z)
Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文参考訳（メタデータ） (2023-05-23T04:28:16Z)
Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文参考訳（メタデータ） (2023-03-07T15:07:57Z)
Model Choices Influence Attributive Word Associations: A Semi-supervised Analysis of Static Word Embeddings [0.0]
本研究は、5つの異なる静的単語埋め込みアーキテクチャの属性的単語関連を評価することを目的とする。その結果, 組込み学習における文脈学習のフレーバーの選択は, 学習コーパスにおける単語の関連性や単語の組込み感に影響を及ぼすことが明らかとなった。
論文参考訳（メタデータ） (2020-12-14T22:27:18Z)
A Self-supervised Representation Learning of Sentence Structure for Authorship Attribution [3.5991811164452923]
文の構造表現を学習するための自己教師型フレームワークを提案する。本研究では,異なる探索タスクを用いて文の構造的表現を学習し,著者帰属タスクに活用する。
論文参考訳（メタデータ） (2020-10-14T02:57:10Z)
OCoR: An Overlapping-Aware Code Retriever [15.531119719750807]
自然言語による記述が与えられた場合、コード検索は一連のコードの中で最も関連性の高いコードを探すことを目的としている。既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。我々はOCoRという新しいニューラルアーキテクチャを提案し、オーバーラップを捉えるために2つの特別に設計されたコンポーネントを紹介した。
論文参考訳（メタデータ） (2020-08-12T09:43:35Z)
Interpretability Analysis for Named Entity Recognition to Understand System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文参考訳（メタデータ） (2020-04-09T14:37:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。