Fugu-MT 論文翻訳(概要): The Code Barrier: What LLMs Actually Understand?

論文の概要: The Code Barrier: What LLMs Actually Understand?

arxiv url: http://arxiv.org/abs/2504.10557v1
Date: Mon, 14 Apr 2025 14:11:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 11:52:23.954453
Title: The Code Barrier: What LLMs Actually Understand?
Title（参考訳）: コードバリア: LLMが実際に理解しているものは何か?
Authors: Serge Lionel Nikiema, Jordan Samhi, Abdoul Kader Kaboré, Jacques Klein, Tegawendé F. Bissyandé,
Abstract要約: 本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
参考スコア（独自算出の注目度）: 7.407441962359689
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Understanding code represents a core ability needed for automating software development tasks. While foundation models like LLMs show impressive results across many software engineering challenges, the extent of their true semantic understanding beyond simple token recognition remains unclear. This research uses code obfuscation as a structured testing framework to evaluate LLMs' semantic understanding capabilities. We methodically apply controlled obfuscation changes to source code and measure comprehension through two complementary tasks: generating accurate descriptions of obfuscated code and performing deobfuscation, a skill with important implications for reverse engineering applications. Our testing approach includes 13 cutting-edge models, covering both code-specialized (e.g., StarCoder2) and general-purpose (e.g., GPT-4o) architectures, evaluated on a benchmark created from CodeNet and consisting of filtered 250 Java programming problems and their solutions. Findings show a statistically significant performance decline as obfuscation complexity increases, with unexpected resilience shown by general-purpose models compared to their code-focused counterparts. While some models successfully identify obfuscation techniques, their ability to reconstruct the underlying program logic remains constrained, suggesting limitations in their semantic representation mechanisms. This research introduces a new evaluation approach for assessing code comprehension in language models and establishes empirical baselines for advancing research in security-critical code analysis applications such as reverse engineering and adversarial code analysis.
Abstract（参考訳）: コードを理解することは、ソフトウェア開発タスクの自動化に必要なコア機能である。 LLMのような基礎モデルは、多くのソフトウェアエンジニアリングの課題において印象的な結果を示しているが、それらの真の意味的理解が単純なトークン認識を超えた範囲は、まだ不明である。本研究では,LLMのセマンティック理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。我々は,ソースコードに制御された難読化変化を適用し,難読化コードの正確な記述を生成し,逆工学的応用に重要な意味を持つ非難読化を行うという2つの相補的タスクを通じて理解度を測定する。私たちのテストアプローチには、コード特化(例: StarCoder2)と汎用(例: GPT-4o)アーキテクチャの両方をカバーする13の最先端モデルが含まれています。難解化の複雑さが増大するにつれて、統計的に顕著なパフォーマンス低下が見られ、コード中心のモデルと比較して、予期せぬレジリエンスが示される。一部のモデルでは難読化手法の同定に成功しているが、基礎となるプログラムロジックを再構築する能力は制約が残っており、意味表現機構の制限を示唆している。本研究は,言語モデルにおけるコード理解を評価するための新たな評価手法を導入し,リバースエンジニアリングや逆コード解析などのセキュリティクリティカルなコード解析アプリケーションの研究を進めるための実証的ベースラインを確立する。

関連論文リスト

CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [12.465309397733249]
大規模言語モデル(LLM)は様々なソフトウェア工学領域で広く採用されている。これらのアプリケーションは、表面レベルのコードパターン以上の理解を必要とします。既存のベンチマークは、コードが正しく修正されるか、生成されたかといったエンドツーエンドの結果を主に評価する。
論文参考訳（メタデータ） (2025-07-03T01:35:58Z)
Deconstructing Obfuscation: A four-dimensional framework for evaluating Large Language Models assembly code deobfuscation capabilities [0.49157446832511503]
大規模言語モデル (LLM) はソフトウェア工学において有望であるが、バイナリ解析の有効性は未定である。組立コードの難読化のための商用LCMの総合評価を行った。
論文参考訳（メタデータ） (2025-05-26T12:16:44Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文参考訳（メタデータ） (2025-03-21T01:00:45Z)
TFHE-Coder: Evaluating LLM-agentic Fully Homomorphic Encryption Code Generation [10.597643264309415]
TFHE (Homomorphic Encryption over the Torus) は、復号化せずにデータを暗号化する。マシンラーニングのプライバシ保護、セキュアなマルチパーティ計算、プライベートブロックチェーントランザクション、セキュアな医療診断といった可能性にもかかわらず、暗号化の複雑さとユーザビリティの問題により、その採用は制限されている。この研究は、TFHEコード生成の最初のベンチマークを確立し、ドメイン固有のフィードバックで拡張されたLLMが、FHEコード生成の専門的ギャップを埋める方法を示している。
論文参考訳（メタデータ） (2025-03-15T17:57:44Z)
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文参考訳（メタデータ） (2025-02-26T18:55:42Z)
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [5.247363735860479]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。 LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。 SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文参考訳（メタデータ） (2025-02-16T15:38:19Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T14:44:08Z)
Benchmarking and Explaining Large Language Model-based Code Generation: A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文参考訳（メタデータ） (2023-10-10T14:56:26Z)
Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。 muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文参考訳（メタデータ） (2023-09-28T02:58:07Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。