論文の概要: Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility
- arxiv url: http://arxiv.org/abs/2601.13398v1
- Date: Mon, 19 Jan 2026 21:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.062176
- Title: Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility
- Title(参考訳): LLMは圧縮(および非圧縮)可能か? 可逆性によるコード理解と実行の評価
- Authors: Nickil Maveli, Antonio Vergari, Shay B. Cohen,
- Abstract要約: RoundTripCodeEval(RTCE)は、4つの異なるコード実行推論タスクからなる包括的なベンチマークである。
ゼロショットプロンプト、実行トレースの教師付き微調整、自己回帰機構を用いて、最先端のコード-LLMを体系的に評価する。
RTCEは、既存のI/O予測、実行推論、ラウンドトリップの自然言語ベンチマークによって捉えられていない、これまで測定されていなかったいくつかの新しい洞察を表面化している。
- 参考スコア(独自算出の注目度): 36.41073880422337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs demonstrate strong performance on code benchmarks, yet round-trip code execution reveals limitations in their ability to maintain consistent reasoning across forward and backward execution. We present RoundTripCodeEval (RTCE), a comprehensive benchmark consisting of four distinct code execution reasoning tasks designed to rigorously test round-trip consistency. RTCE provides an execution-free, exact-match evaluation of bijection fidelity, assessing whether models preserve a consistent one-to-one mapping between encoding and decoding operations across various algorithms and directions. We systematically evaluate state-of-the-art Code-LLMs using zero-shot prompting, supervised fine-tuning on execution traces, and self-reflection mechanisms. Each yields modest improvements, but none closes the gap, indicating that current LLMs struggle with true round-trip consistency, which demonstrates that they lack the internal coherence required for trustworthy code reasoning. RTCE surfaces several new and previously unmeasured insights that are not captured by existing I/O-prediction, execution-reasoning, or round-trip natural-language benchmarks. We will release the code and the dataset upon acceptance.
- Abstract(参考訳): LLMは、コードベンチマークで強力なパフォーマンスを示すが、ラウンドトリップコード実行は、前方および後方実行における一貫性のある推論を維持する能力の制限を明らかにする。
RoundTripCodeEval(RTCE)は、ラウンドトリップ一貫性を厳格にテストするために設計された4つの異なるコード実行推論タスクからなる包括的なベンチマークである。
RTCEは、ビジェクションの忠実度を、実行不要で正確なマッチングで評価し、モデルが様々なアルゴリズムや方向をまたいだ符号化と復号操作の間に一貫した1対1のマッピングを保持するかどうかを評価する。
ゼロショットプロンプト、実行トレースの教師付き微調整、自己回帰機構を用いて、最先端のコード-LLMを体系的に評価する。
現在のLLMは真のラウンドトリップ一貫性に苦戦しており、信頼に値するコード推論に必要な内部の一貫性が欠如していることを示している。
RTCEは、既存のI/O予測、実行推論、ラウンドトリップの自然言語ベンチマークによって捉えられていない、これまで測定されていなかったいくつかの新しい洞察を表面化している。
受け入れ次第、コードとデータセットをリリースします。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。
本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。