論文の概要: Verbatim Data Transcription Failures in LLM Code Generation: A State-Tracking Stress Test
- arxiv url: http://arxiv.org/abs/2601.03640v1
- Date: Wed, 07 Jan 2026 06:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.142818
- Title: Verbatim Data Transcription Failures in LLM Code Generation: A State-Tracking Stress Test
- Title(参考訳): LLMコード生成におけるVerbatim Data Transcriptionの障害:状態トラッキングストレステスト
- Authors: Mohd Ariful Haque, Kishor Datta Gupta, Mohammad Ashiqur Rahman, Roy George,
- Abstract要約: 多くの実世界のソフトウェアタスクは、提供されたデータのコードへの正確な書き起こしを必要とする。
小さな省略や変更は、構文的に有効なプログラムを作成しながら沈黙し続けることができる。
本稿では、この信頼性の懸念を解消するために、意図的に最小限の書き起こし-コードベンチマークを導入する。
- 参考スコア(独自算出の注目度): 1.8875967655304022
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Many real-world software tasks require exact transcription of provided data into code, such as cryptographic constants, protocol test vectors, allowlists, and calibration tables. These tasks are operationally sensitive because small omissions or alterations can remain silent while producing syntactically valid programs. This paper introduces a deliberately minimal transcription-to-code benchmark to isolate this reliability concern in LLM-based code generation. Given a list of high-precision decimal constants, a model must generate Python code that embeds the constants verbatim and performs a simple aggregate computation. We describe the prompting variants, evaluation protocol based on exact-string inclusion, and analysis framework used to characterize state-tracking and long-horizon generation failures. The benchmark is intended as a compact stress test that complements existing code-generation evaluations by focusing on data integrity rather than algorithmic reasoning.
- Abstract(参考訳): 多くの実世界のソフトウェアタスクでは、暗号定数、プロトコルテストベクトル、許容値リスト、キャリブレーションテーブルなど、提供されたデータをコードに正確に書き起こす必要がある。
これらのタスクは、構文的に有効なプログラムを作成しながら、小さな省略や変更が黙秘される可能性があるため、運用に敏感である。
本稿では、LLMベースのコード生成において、この信頼性の懸念を解消するために、意図的に最小限の書き起こし-コードベンチマークを導入する。
高精度な十進定数のリストが与えられた場合、モデルは定数を冗長に埋め込んだPythonコードを生成し、単純な集約計算を実行する必要がある。
提案手法では, 状態追跡と長軸生成の障害を特徴付けるための解析フレームワークと, 精度の高いインクルージョンに基づく評価プロトコルについて述べる。
このベンチマークは、アルゴリズムによる推論よりもデータの完全性を重視することで、既存のコード生成評価を補完するコンパクトなストレステストとして意図されている。
関連論文リスト
- From Bits to Rounds: Parallel Decoding with Exploration for Diffusion Language Models [19.97248408121574]
Diffusion Language Models (DLMs) は並列デコードにより高速な推論速度で同等の精度を提供する。
高信頼トークンは無視可能な情報を持ち、それらに厳密に依存することで、各デコードラウンドにおける効果的な進捗を制限する。
本研究では,情報スループットと復号効率を最大化する学習自由復号法であるExplore-Then-Exploit (ETE)を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:38:37Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。
当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。
モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文 参考訳(メタデータ) (2025-08-04T08:28:25Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Program Semantic Inequivalence Game with Large Language Models [20.43560028315856]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。
本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。
この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文 参考訳(メタデータ) (2025-05-02T20:03:35Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。