論文の概要: Correctness isnt Efficiency: Runtime Memory Divergence in LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2601.01215v1
- Date: Sat, 03 Jan 2026 15:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.123509
- Title: Correctness isnt Efficiency: Runtime Memory Divergence in LLM-Generated Code
- Title(参考訳): 正確性は効率的ではない: LLM生成コードにおける実行時メモリの多様性
- Authors: Prateek Rajput, Yewei Song, Abdoul Aziz Bonkoungou, Iyiola E. Olatunji, Abdoul Kader Kabore, Jacques Klein, Tegawendé F. Bissyandé,
- Abstract要約: 大規模言語モデル(LLM)は単体テストに合格するプログラムを生成することができるが、テストに合格しても信頼できる実行動作は保証されない。
同じタスクに対する異なる正しいソリューションは、非常に異なるメモリとパフォーマンスパターンを示し、それが隠れた運用上のリスクを引き起こす可能性があることに気付きました。
本稿では,複数世代にわたる実行時メモリの安定性を計測するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.464512010462789
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) can generate programs that pass unit tests, but passing tests does not guarantee reliable runtime behavior. We find that different correct solutions to the same task can show very different memory and performance patterns, which can lead to hidden operational risks. We present a framework to measure execution-time memory stability across multiple correct generations. At the solution level, we introduce Dynamic Mean Pairwise Distance (DMPD), which uses Dynamic Time Warping to compare the shapes of memory-usage traces after converting them into Monotonic Peak Profiles (MPPs) to reduce transient noise. Aggregating DMPD across tasks yields a model-level Model Instability Score (MIS). Experiments on BigOBench and CodeContests show substantial runtime divergence among correct solutions. Instability often increases with higher sampling temperature even when pass@1 improves. We also observe correlations between our stability measures and software engineering indicators such as cognitive and cyclomatic complexity, suggesting links between operational behavior and maintainability. Our results support stability-aware selection among passing candidates in CI/CD to reduce operational risk without sacrificing correctness. Artifacts are available.
- Abstract(参考訳): 大規模言語モデル(LLM)は単体テストに合格するプログラムを生成することができるが、テストに合格しても信頼できる実行動作は保証されない。
同じタスクに対する異なる正しいソリューションは、非常に異なるメモリとパフォーマンスパターンを示し、それが隠れた運用上のリスクを引き起こす可能性があることに気付きました。
本稿では,複数世代にわたる実行時メモリの安定性を計測するフレームワークを提案する。
解レベルでは、Dynamic Mean Pairwise Distance (DMPD)を導入し、動的時間ワープを用いて、それらをモノトニックピークプロファイル(MPP)に変換してメモリ使用量トレースの形状を比較し、過渡雑音を低減する。
タスク間でDMPDを集約すると、モデルレベルのモデル不安定スコア(MIS)が得られる。
BigOBenchとCodeContestsの実験は、正しいソリューション間でかなりのランタイムのばらつきを示している。
Pass@1が改善しても、サンプリング温度が高くなると不安定性が増大する。
また、我々の安定性対策と認知やサイクロマティックな複雑さなどのソフトウェア工学指標との相関関係を観察し、運用行動と保守性との関係を示唆する。
本研究は,CI/CDにおけるパス候補間の安定性を考慮した選択をサポートし,精度を犠牲にすることなく運用リスクを低減することを目的とした。
アーティファクトが利用可能である。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Dynamic Stability of LLM-Generated Code [6.120340803716395]
コード生成のためのLLMの現在の評価は、関数的に正しい解がアルゴリズムの複雑さにおいて著しく異なるという事実を見落としている。
本稿では,生成コードの動的安定性を評価するためのフレームワークを提案する。
コード生成における安定性を意識した目標と、堅牢で現実的な評価のためのテストケースを備えた新しいベンチマークが求められた。
論文 参考訳(メタデータ) (2025-11-07T09:58:06Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - MINGLE: Mixture of Null-Space Gated Low-Rank Experts for Test-Time Continual Model Merging [29.58798660724693]
連続モデルマージは、オリジナルのトレーニングデータにアクセスすることなく、独立して微調整されたモデルを順次統合する。
テスト時間連続モデルマージの新しいフレームワークであるMINGLEを提案する。
MINGLEは堅牢な一般化を実現し、忘れることを大幅に減らし、従来の最先端の手法を平均で7-9%上回っている。
論文 参考訳(メタデータ) (2025-05-17T07:24:22Z) - CoDynTrust: Robust Asynchronous Collaborative Perception via Dynamic Feature Trust Modulus [9.552300496606644]
複数のエージェントからの情報を融合した協調的知覚は、知覚範囲を拡張して性能を向上させることができる。
リアルタイム環境における時間的非同期性は、通信遅延、クロックのミスアライメント、あるいは構成の違いのサンプリングによって引き起こされ、情報ミスマッチを引き起こす。
本稿では,時間的非同期性に起因する情報ミスマッチに頑健な,不確実性に符号化された非同期核融合認識フレームワークであるCoDynTrustを提案する。
論文 参考訳(メタデータ) (2025-02-12T07:23:26Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。