論文の概要: Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning
- arxiv url: http://arxiv.org/abs/2505.13353v2
- Date: Tue, 20 May 2025 05:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.470885
- Title: Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning
- Title(参考訳): 感覚と感性:意味的リコールが長期的文脈コード推論に及ぼす影響について
- Authors: Adam Štorek, Mukur Gupta, Samira Hajizadeh, Prashast Srivastava, Suman Jana,
- Abstract要約: 本稿では,大規模リポジトリ内のコードスニペットに対するLLM(Large Language Models)推論能力について検討する。
我々は語彙的コードリコール (verbatim search) と意味的コードリコール (remembering the code does) を区別する。
我々は,コードスニペットが入力コンテキストの中央に近づくと,コード推論の精度が大幅に低下することを示した。
- 参考スコア(独自算出の注目度): 9.719614935865906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although modern Large Language Models (LLMs) support extremely large contexts, their effectiveness in utilizing long context for code reasoning remains unclear. This paper investigates LLM reasoning ability over code snippets within large repositories and how it relates to their recall ability. Specifically, we differentiate between lexical code recall (verbatim retrieval) and semantic code recall (remembering what the code does). To measure semantic recall, we propose SemTrace, a code reasoning technique where the impact of specific statements on output is attributable and unpredictable. We also present a method to quantify semantic recall sensitivity in existing benchmarks. Our evaluation of state-of-the-art LLMs reveals a significant drop in code reasoning accuracy as a code snippet approaches the middle of the input context, particularly with techniques requiring high semantic recall like SemTrace. Moreover, we find that lexical recall varies by granularity, with models excelling at function retrieval but struggling with line-by-line recall. Notably, a disconnect exists between lexical and semantic recall, suggesting different underlying mechanisms. Finally, our findings indicate that current code reasoning benchmarks may exhibit low semantic recall sensitivity, potentially underestimating LLM challenges in leveraging in-context information.
- Abstract(参考訳): 現代のLarge Language Models (LLM) は、非常に大きなコンテキストをサポートするが、コード推論に長いコンテキストを利用する効果は、まだ不明である。
本稿では,大規模なリポジトリ内のコードスニペット上でのLCM推論能力と,そのリコール能力との関連について検討する。
具体的には、語彙的コードリコール(verbatim search)とセマンティックコードリコール(remembering that code does)を区別する。
セマンティックリコールを測定するために,特定の文が出力に与える影響が帰属的かつ予測不能なコード推論手法であるSemTraceを提案する。
また,既存ベンチマークのセマンティックリコール感度を定量化する手法を提案する。
コードスニペットが入力コンテキストの中央に近づき、特にSemTraceのような高度なセマンティックリコールを必要とする技術でコード推論の精度が大幅に低下していることを明らかにする。
さらに,レキシカルリコールは粒度によって異なり,機能検索に優れ,ライン・バイ・ラインリコールに苦慮するモデルが存在することがわかった。
特に、語彙的リコールと意味的リコールの間に解離が存在し、異なるメカニズムが示唆される。
最後に,現在のコード推論ベンチマークではセマンティックリコールの感度が低く,文脈内情報を活用する上でのLCMの課題を過小評価する可能性が示唆された。
関連論文リスト
- Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - Beyond Memorization: Evaluating the True Type Inference Capabilities of LLMs for Java Code Snippets [3.152174935904172]
最近の研究は、コードスニペットの型推論にLarge Language Modelsを活用し、有望な結果を示している。
しかし、ベンチマークスイート(StatType-SO)が2017年以来GitHubで公開されているため、これらの結果はデータ漏洩の影響を受けやすい。
Java コードスニペット上で LLM の型推論能力を総合的に評価するために,3段階評価を行った。
論文 参考訳(メタデータ) (2025-03-06T04:13:40Z) - Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks [42.22616978679253]
本稿では,認知心理学におけるエピソード記憶研究の課題から順応する逐次リコールタスク(SORT)を紹介する。
SORTはLLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で追加のアノテーションを必要としない一般的なフレームワークを提供する。
155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。
論文 参考訳(メタデータ) (2024-10-10T17:17:38Z) - What can Large Language Models Capture about Code Functional Equivalence? [24.178831487657945]
SeqCoBenchは、コード-LLMがコード関数同値をキャプチャする方法を評価するベンチマークである。
我々は,SeqCoBenchにおける意味論的に等価なプログラムと異なるプログラムのペアを識別できるかどうかを,最先端(Code)-LLMで評価する。
論文 参考訳(メタデータ) (2024-08-20T11:19:06Z) - Unveiling Factual Recall Behaviors of Large Language Models through Knowledge Neurons [13.266817091775042]
本研究では,Large Language Models (LLMs) が推論タスクに直面すると,その内部知識のリポジトリを積極的にリコールするか,回収するかを検討する。
我々は,LLMが特定の状況下での批判的事実関連を活用できないことを明らかにした。
複雑な推論タスクに対処する強力な手法であるChain-of-Thought(CoT)プロンプトの効果を評価する。
論文 参考訳(メタデータ) (2024-08-06T15:07:08Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。