Fugu-MT 論文翻訳(概要): On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words

論文の概要: On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words

arxiv url: http://arxiv.org/abs/2505.18444v2
Date: Wed, 02 Jul 2025 14:56:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:57.630429
Title: On the Structure and Semantics of Identifier Names Containing Closed Syntactic Category Words
Title（参考訳）: クローズド・シンタクティック・カテゴリー語を含む識別子名の構造と意味について
Authors: Christian D. Newman, Anthony Peruma, Eman Abdullah AlOmar, Mahie Crabbe, Syreen Banabilah, Reem S. AlSuhaibani, Michael J. Decker, Farhad Akhbardeh, Marcos Zampieri, Mohamed Wiem Mkaouer, Jonathan I. Maletic,
Abstract要約: 本稿では,文法パターンの概念を拡張した識別子名の言語構造について検討する。特定の焦点はクローズドな構文カテゴリーであり、ソフトウェア工学で研究されることはめったにない。閉圏文法パターンとプログラムの振る舞いの関係を、基底理論に着想を得た符号化、統計、パターン分析を用いて解析する。
参考スコア（独自算出の注目度）: 19.94735883254009
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Identifier names are crucial components of code, serving as primary clues for developers to understand program behavior. This paper investigates the linguistic structure of identifier names by extending the concept of grammar patterns, which represent the part-of-speech (PoS) sequences underlying identifier phrases. The specific focus is on closed syntactic categories (e.g., prepositions, conjunctions, determiners), which are rarely studied in software engineering despite their central role in general natural language. To study these categories, the Closed Category Identifier Dataset (CCID), a new manually annotated dataset of 1,275 identifiers drawn from 30 open-source systems, is constructed and presented. The relationship between closed-category grammar patterns and program behavior is then analyzed using grounded-theory-inspired coding, statistical, and pattern analysis. The results reveal recurring structures that developers use to express concepts such as control flow, data transformation, temporal reasoning, and other behavioral roles through naming. This work contributes an empirical foundation for understanding how linguistic resources encode behavior in identifier names and supports new directions for research in naming, program comprehension, and education.
Abstract（参考訳）: 識別子名はコードの重要なコンポーネントであり、開発者がプログラムの振る舞いを理解するための主要な手がかりとなる。本稿では, 文法パターンの概念を拡張することで, 識別子の言語構造を解明する。特定の焦点は閉構文カテゴリー(例えば、前置詞、接続詞、決定詞)であり、一般の自然言語において中心的な役割を担っているにもかかわらず、ソフトウェア工学において滅多に研究されていない。これらのカテゴリを研究するために、30のオープンソースシステムから引き出された1,275の識別子を手動でアノテートした新しいデータセットであるCCID(Closed Category Identifier Dataset)を構築し、提示する。閉圏文法パターンとプログラムの振る舞いの関係を、基底理論に着想を得た符号化、統計、パターン分析を用いて解析する。その結果、開発者が名前を通して制御フロー、データ変換、時間的推論、その他の行動的役割といった概念を表現するために使用する繰り返し構造が明らかになった。この研究は、言語資源が識別子名にどのように振舞いをエンコードするかを理解するための実証的な基盤を提供し、命名、プログラム理解、教育研究の新しい方向性を支援する。

関連論文リスト

How Do Language Models Acquire Character-Level Information? [13.183615639007941]
制御条件下で訓練されたLMと、標準条件下で訓練されたLMとを比較して、モデルがどのように文字レベルの知識を取得するかを分析する。分析の結果, トークン化に起因して, マージ規則と正書法制約が一次要因となることが明らかとなった。
論文参考訳（メタデータ） (2026-02-05T06:19:51Z)
X-Blocks: Linguistic Building Blocks of Natural Language Explanations for Automated Vehicles [14.815119135668247]
自然言語の説明は、自動車両(AV)の信頼性と受容を確立する上で重要な役割を担っている本稿では,AVに対する自然言語説明の言語的構成要素を,文脈,構文,語彙の3段階で識別する階層的分析フレームワークであるX-Blocksを紹介する。 RACEの精度は91.45パーセントで、ヒトアノテーター契約のケースに対するCohens Kappaは0.91である。
論文参考訳（メタデータ） (2026-02-02T07:18:25Z)
Identifier Name Similarities: An Exploratory Study [3.7420775485568294]
本稿では,ソフトウェアプロジェクトにおける識別子名類似性の発生に関する予備的知見を示す。我々は、コード理解、保守性、開発者間のコラボレーションに対する識別子名類似性の影響を分析し評価するプラットフォームを研究者に提供する最初の分類学を構想する。
論文参考訳（メタデータ） (2025-07-24T04:13:26Z)
From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T15:17:08Z)
How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文参考訳（メタデータ） (2024-02-22T23:11:08Z)
Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文参考訳（メタデータ） (2023-10-11T18:56:15Z)
Assessment of Pre-Trained Models Across Languages and Grammars [7.466159270333272]
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元することを目的としている。その結果、事前学習された単語ベクトルは、依存関係よりも構文の連続表現を好まないことが明らかとなった。プレトレーニングデータ中の言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。
論文参考訳（メタデータ） (2023-09-20T09:23:36Z)
Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文参考訳（メタデータ） (2023-05-26T06:50:21Z)
Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文参考訳（メタデータ） (2023-05-23T04:28:16Z)
Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文参考訳（メタデータ） (2023-03-07T15:07:57Z)
Model Choices Influence Attributive Word Associations: A Semi-supervised Analysis of Static Word Embeddings [0.0]
本研究は、5つの異なる静的単語埋め込みアーキテクチャの属性的単語関連を評価することを目的とする。その結果, 組込み学習における文脈学習のフレーバーの選択は, 学習コーパスにおける単語の関連性や単語の組込み感に影響を及ぼすことが明らかとなった。
論文参考訳（メタデータ） (2020-12-14T22:27:18Z)
A Self-supervised Representation Learning of Sentence Structure for Authorship Attribution [3.5991811164452923]
文の構造表現を学習するための自己教師型フレームワークを提案する。本研究では,異なる探索タスクを用いて文の構造的表現を学習し,著者帰属タスクに活用する。
論文参考訳（メタデータ） (2020-10-14T02:57:10Z)
OCoR: An Overlapping-Aware Code Retriever [15.531119719750807]
自然言語による記述が与えられた場合、コード検索は一連のコードの中で最も関連性の高いコードを探すことを目的としている。既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。我々はOCoRという新しいニューラルアーキテクチャを提案し、オーバーラップを捉えるために2つの特別に設計されたコンポーネントを紹介した。
論文参考訳（メタデータ） (2020-08-12T09:43:35Z)
Interpretability Analysis for Named Entity Recognition to Understand System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文参考訳（メタデータ） (2020-04-09T14:37:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。