論文の概要: When Names Disappear: Revealing What LLMs Actually Understand About Code
- arxiv url: http://arxiv.org/abs/2510.03178v1
- Date: Fri, 03 Oct 2025 16:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.498377
- Title: When Names Disappear: Revealing What LLMs Actually Understand About Code
- Title(参考訳): 名前が消えたとき: LLMがコードについて実際に理解しているものを明らかにする
- Authors: Cuong Chi Le, Minh V. T. Pham, Cuong Duc Van, Hoang N. Phan, Huy N. Phan, Tien N. Nguyen,
- Abstract要約: 大規模言語モデル(LLM)は、コードタスクにおいて強力な結果をもたらすが、どのようにプログラムの意味を導き出すかは、まだ不明である。
形式的な振る舞いを定義する構造的意味論と、意図を伝える人間の解釈可能な命名という2つのチャンネルを通じてコードがコミュニケーションすると主張する。
命名チャンネルの削除は、モデルが行ごとの記述に回帰する、要約のような意図レベルのタスクを著しく低下させる。
- 参考スコア(独自算出の注目度): 7.691597373321699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) achieve strong results on code tasks, but how they derive program meaning remains unclear. We argue that code communicates through two channels: structural semantics, which define formal behavior, and human-interpretable naming, which conveys intent. Removing the naming channel severely degrades intent-level tasks such as summarization, where models regress to line-by-line descriptions. Surprisingly, we also observe consistent reductions on execution tasks that should depend only on structure, revealing that current benchmarks reward memorization of naming patterns rather than genuine semantic reasoning. To disentangle these effects, we introduce a suite of semantics-preserving obfuscations and show that they expose identifier leakage across both summarization and execution. Building on these insights, we release ClassEval-Obf, an obfuscation-enhanced benchmark that systematically suppresses naming cues while preserving behavior. Our results demonstrate that ClassEval-Obf reduces inflated performance gaps, weakens memorization shortcuts, and provides a more reliable basis for assessing LLMs' code understanding and generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コードタスクにおいて強力な結果をもたらすが、どのようにプログラムの意味を導き出すかは、まだ不明である。
形式的な振る舞いを定義する構造的意味論と、意図を伝える人間の解釈可能な命名という2つのチャンネルを通じてコードがコミュニケーションすると主張する。
命名チャンネルの削除は、モデルが行ごとの記述に回帰する、要約のような意図レベルのタスクを著しく低下させる。
驚いたことに、我々は構造にのみ依存すべき実行タスクの一貫性のある削減も観察し、現在のベンチマークが真の意味論的推論ではなく、命名パターンの記憶に報いることを明らかにした。
これらの影響を解消するために,セマンティックスを保存した難読化のスイートを導入し,それらが要約と実行の両方にわたって識別子の漏洩を露呈することを示す。
これらの知見に基づいて、私たちは、振る舞いを保ちながら命名方法の体系的な抑制を行う難読化強化ベンチマークであるClassEval-Obfをリリースする。
その結果,ClassEval-Obfは拡張性能のギャップを減らし,暗記ショートカットを弱め,LLMのコード理解と一般化を評価するための信頼性の高い基盤を提供することがわかった。
関連論文リスト
- Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning [9.719614935865906]
本稿では,大規模リポジトリ内のコードスニペットに対するLLM(Large Language Models)推論能力について検討する。
我々は語彙的コードリコール (verbatim search) と意味的コードリコール (remembering the code does) を区別する。
我々は,コードスニペットが入力コンテキストの中央に近づくと,コード推論の精度が大幅に低下することを示した。
論文 参考訳(メタデータ) (2025-05-19T16:56:31Z) - Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。
既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。
そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文 参考訳(メタデータ) (2025-03-04T05:39:24Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - Mitigating Semantic Leakage in Cross-lingual Embeddings via Orthogonality Constraint [10.747248747425957]
現在の不整合表現学習法はセマンティックリークに悩まされている。
我々は,新しい学習目標orthogonAlity Constraint LEarning(ORACLE)を提案する。
ORACLEはクラス内のクラスタリングとクラス間の分離という2つのコンポーネントの上に構築されている。
ORACLE目標を用いたトレーニングは,意味的漏洩を効果的に低減し,埋め込み空間内の意味的アライメントを高めることを実証する。
論文 参考訳(メタデータ) (2024-09-24T02:01:52Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。