Fugu-MT 論文翻訳(概要): Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility

論文の概要: Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility

arxiv url: http://arxiv.org/abs/2601.13398v1
Date: Mon, 19 Jan 2026 21:09:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:23.062176
Title: Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility
Title（参考訳）: LLMは圧縮(および非圧縮)可能か? 可逆性によるコード理解と実行の評価
Authors: Nickil Maveli, Antonio Vergari, Shay B. Cohen,
Abstract要約: RoundTripCodeEval(RTCE)は、4つの異なるコード実行推論タスクからなる包括的なベンチマークである。ゼロショットプロンプト、実行トレースの教師付き微調整、自己回帰機構を用いて、最先端のコード-LLMを体系的に評価する。 RTCEは、既存のI/O予測、実行推論、ラウンドトリップの自然言語ベンチマークによって捉えられていない、これまで測定されていなかったいくつかの新しい洞察を表面化している。
参考スコア（独自算出の注目度）: 36.41073880422337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs demonstrate strong performance on code benchmarks, yet round-trip code execution reveals limitations in their ability to maintain consistent reasoning across forward and backward execution. We present RoundTripCodeEval (RTCE), a comprehensive benchmark consisting of four distinct code execution reasoning tasks designed to rigorously test round-trip consistency. RTCE provides an execution-free, exact-match evaluation of bijection fidelity, assessing whether models preserve a consistent one-to-one mapping between encoding and decoding operations across various algorithms and directions. We systematically evaluate state-of-the-art Code-LLMs using zero-shot prompting, supervised fine-tuning on execution traces, and self-reflection mechanisms. Each yields modest improvements, but none closes the gap, indicating that current LLMs struggle with true round-trip consistency, which demonstrates that they lack the internal coherence required for trustworthy code reasoning. RTCE surfaces several new and previously unmeasured insights that are not captured by existing I/O-prediction, execution-reasoning, or round-trip natural-language benchmarks. We will release the code and the dataset upon acceptance.
Abstract（参考訳）: LLMは、コードベンチマークで強力なパフォーマンスを示すが、ラウンドトリップコード実行は、前方および後方実行における一貫性のある推論を維持する能力の制限を明らかにする。 RoundTripCodeEval(RTCE)は、ラウンドトリップ一貫性を厳格にテストするために設計された4つの異なるコード実行推論タスクからなる包括的なベンチマークである。 RTCEは、ビジェクションの忠実度を、実行不要で正確なマッチングで評価し、モデルが様々なアルゴリズムや方向をまたいだ符号化と復号操作の間に一貫した1対1のマッピングを保持するかどうかを評価する。ゼロショットプロンプト、実行トレースの教師付き微調整、自己回帰機構を用いて、最先端のコード-LLMを体系的に評価する。現在のLLMは真のラウンドトリップ一貫性に苦戦しており、信頼に値するコード推論に必要な内部の一貫性が欠如していることを示している。 RTCEは、既存のI/O予測、実行推論、ラウンドトリップの自然言語ベンチマークによって捉えられていない、これまで測定されていなかったいくつかの新しい洞察を表面化している。受け入れ次第、コードとデータセットをリリースします。

関連論文リスト

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文参考訳（メタデータ） (2026-02-10T06:58:26Z)
Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文参考訳（メタデータ） (2026-02-02T09:14:51Z)
Verbatim Data Transcription Failures in LLM Code Generation: A State-Tracking Stress Test [1.8875967655304022]
多くの実世界のソフトウェアタスクは、提供されたデータのコードへの正確な書き起こしを必要とする。小さな省略や変更は、構文的に有効なプログラムを作成しながら沈黙し続けることができる。本稿では、この信頼性の懸念を解消するために、意図的に最小限の書き起こし-コードベンチマークを導入する。
論文参考訳（メタデータ） (2026-01-07T06:38:34Z)
PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code [1.1164117387254457]
大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。 PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
論文参考訳（メタデータ） (2025-12-11T14:49:56Z)
Assertion-Aware Test Code Summarization with Large Language Models [0.0]
単体テストは、テスト意図を伝える簡潔な要約を欠くことが多い。本稿では,開発者による要約と組み合わせた実世界のJavaテストケース91のベンチマークを示す。
論文参考訳（メタデータ） (2025-11-09T04:58:32Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文参考訳（メタデータ） (2024-08-25T07:10:36Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文参考訳（メタデータ） (2024-02-15T02:24:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。