論文の概要: Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning
- arxiv url: http://arxiv.org/abs/2505.13353v2
- Date: Tue, 20 May 2025 05:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.470885
- Title: Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning
- Title(参考訳): 感覚と感性:意味的リコールが長期的文脈コード推論に及ぼす影響について
- Authors: Adam Štorek, Mukur Gupta, Samira Hajizadeh, Prashast Srivastava, Suman Jana,
- Abstract要約: 本稿では,大規模リポジトリ内のコードスニペットに対するLLM(Large Language Models)推論能力について検討する。
我々は語彙的コードリコール (verbatim search) と意味的コードリコール (remembering the code does) を区別する。
我々は,コードスニペットが入力コンテキストの中央に近づくと,コード推論の精度が大幅に低下することを示した。
- 参考スコア(独自算出の注目度): 9.719614935865906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although modern Large Language Models (LLMs) support extremely large contexts, their effectiveness in utilizing long context for code reasoning remains unclear. This paper investigates LLM reasoning ability over code snippets within large repositories and how it relates to their recall ability. Specifically, we differentiate between lexical code recall (verbatim retrieval) and semantic code recall (remembering what the code does). To measure semantic recall, we propose SemTrace, a code reasoning technique where the impact of specific statements on output is attributable and unpredictable. We also present a method to quantify semantic recall sensitivity in existing benchmarks. Our evaluation of state-of-the-art LLMs reveals a significant drop in code reasoning accuracy as a code snippet approaches the middle of the input context, particularly with techniques requiring high semantic recall like SemTrace. Moreover, we find that lexical recall varies by granularity, with models excelling at function retrieval but struggling with line-by-line recall. Notably, a disconnect exists between lexical and semantic recall, suggesting different underlying mechanisms. Finally, our findings indicate that current code reasoning benchmarks may exhibit low semantic recall sensitivity, potentially underestimating LLM challenges in leveraging in-context information.
- Abstract(参考訳): 現代のLarge Language Models (LLM) は、非常に大きなコンテキストをサポートするが、コード推論に長いコンテキストを利用する効果は、まだ不明である。
本稿では,大規模なリポジトリ内のコードスニペット上でのLCM推論能力と,そのリコール能力との関連について検討する。
具体的には、語彙的コードリコール(verbatim search)とセマンティックコードリコール(remembering that code does)を区別する。
セマンティックリコールを測定するために,特定の文が出力に与える影響が帰属的かつ予測不能なコード推論手法であるSemTraceを提案する。
また,既存ベンチマークのセマンティックリコール感度を定量化する手法を提案する。
コードスニペットが入力コンテキストの中央に近づき、特にSemTraceのような高度なセマンティックリコールを必要とする技術でコード推論の精度が大幅に低下していることを明らかにする。
さらに,レキシカルリコールは粒度によって異なり,機能検索に優れ,ライン・バイ・ラインリコールに苦慮するモデルが存在することがわかった。
特に、語彙的リコールと意味的リコールの間に解離が存在し、異なるメカニズムが示唆される。
最後に,現在のコード推論ベンチマークではセマンティックリコールの感度が低く,文脈内情報を活用する上でのLCMの課題を過小評価する可能性が示唆された。
関連論文リスト
- Beyond Memorization: Evaluating the True Type Inference Capabilities of LLMs for Java Code Snippets [3.152174935904172]
最近の研究は、コードスニペットの型推論にLarge Language Modelsを活用し、有望な結果を示している。
しかし、ベンチマークスイート(StatType-SO)が2017年以来GitHubで公開されているため、これらの結果はデータ漏洩の影響を受けやすい。
Java コードスニペット上で LLM の型推論能力を総合的に評価するために,3段階評価を行った。
論文 参考訳(メタデータ) (2025-03-06T04:13:40Z) - Unveiling Factual Recall Behaviors of Large Language Models through Knowledge Neurons [13.266817091775042]
本研究では,Large Language Models (LLMs) が推論タスクに直面すると,その内部知識のリポジトリを積極的にリコールするか,回収するかを検討する。
我々は,LLMが特定の状況下での批判的事実関連を活用できないことを明らかにした。
複雑な推論タスクに対処する強力な手法であるChain-of-Thought(CoT)プロンプトの効果を評価する。
論文 参考訳(メタデータ) (2024-08-06T15:07:08Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。