論文の概要: Evaluating perturbation robustnessof generative systems that use COBOL code inputs
- arxiv url: http://arxiv.org/abs/2511.18488v1
- Date: Sun, 23 Nov 2025 15:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.863506
- Title: Evaluating perturbation robustnessof generative systems that use COBOL code inputs
- Title(参考訳): COBOL符号入力を用いた生成系の摂動ロバスト性評価
- Authors: Samuel Ackerman, Wesam Ibraheem, Orna Raz, Marcel Zalmanovici,
- Abstract要約: 大きな言語モデル(LLM)をコンポーネントとして組み込んだシステムは、小さな入力のバリエーションに敏感であることが知られている。
本稿では,入力としてコードを用いるシステムのロバスト性を評価するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.3327839779221817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systems incorporating large language models (LLMs) as a component are known to be sensitive (i.e., non-robust) to minor input variations that do not change the meaning of the input; such sensitivity may reduce the system's usefulness. Here, we present a framework to evaluate robustness of systems using COBOL code as input; our application is translation between COBOL and Java programming languages, but the approach extends to other tasks such as code generation or explanation. Targeting robustness of systems with COBOL as input is essential yet challenging. Many business-critical applications are written in COBOL, yet these are typically proprietary legacy applications and their code is unavailable to LLMs for training. We develop a library of COBOL paragraph and full-program perturbation methods, and create variant-expanded versions of a benchmark dataset of examples for a specific task. The robustness of the LLM-based system is evaluated by measuring changes in values of individual and aggregate metrics calculated on the system's outputs. Finally, we present a series of dynamic table and chart visualization dashboards that assist in debugging the system's outputs, and monitoring and understanding root causes of the system's sensitivity to input variation. These tools can be further used to improve the system by, for instance, indicating variations that should be handled by pre-processing steps.
- Abstract(参考訳): 大きな言語モデル(LLM)をコンポーネントとして組み込んだシステムは、入力の意味を変えない小さな入力のバリエーションに敏感であることが知られている。
本稿では,COBOLコードを入力として使用するシステムのロバスト性を評価するためのフレームワークを提案する。
COBOLを入力とするシステムの堅牢性を目標とすることは不可欠だが、難しい。
多くのビジネスクリティカルなアプリケーションはCOBOLで記述されているが、それらは典型的にはプロプライエタリなレガシアプリケーションであり、トレーニング用のLLMには利用できない。
我々はCOBOL段落とフルプログラム摂動手法のライブラリを開発し、特定のタスクのサンプルのベンチマークデータセットの変分拡張版を作成する。
LLMに基づくシステムのロバスト性は、システムの出力に基づいて算出された個人および集約メトリクスの値の変化を測定することによって評価される。
最後に、システムの出力のデバッグを支援し、システムの入力変動に対する感受性の根本原因を監視し、理解する、一連の動的テーブルとチャートの可視化ダッシュボードを示す。
これらのツールは、例えば、前処理ステップで扱うべきバリエーションを示すことで、システムを改善するためにさらに使用できる。
関連論文リスト
- Code Review Without Borders: Evaluating Synthetic vs. Real Data for Review Recommendation [37.86790434630698]
LLM(Large Language Models)は、十分なリソースを持つ言語からのコード変更を、未表現言語や新興言語の等価な変更に変換するために用いられる。
実ラベル付きデータで訓練されたモデルと比較した。
このアプローチは、自動コードレビュー機能を急速に進化するテクノロジスタックに拡張するためのスケーラブルなパスを提供する。
論文 参考訳(メタデータ) (2025-09-05T05:17:14Z) - Quality Evaluation of COBOL to Java Code Transformation [0.22499166814992438]
我々は,IBMのWatsonx Code Assistant for Z (WCA4Z)におけるコード翻訳の自動評価システムを提案する。
このシステムは、モデル不透明度や翻訳品質評価の複雑さなど、LLMベースの翻訳者を評価する上で重要な課題に対処する。
論文 参考訳(メタデータ) (2025-07-31T09:06:20Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - On Symbolically Encoding the Behavior of Random Forests [21.79165388471151]
近年の研究では、いくつかの機械学習システムの入力出力挙動を象徴的に捉えることができることが示されている。
我々は離散化された連続変数を含む離散的な入力と出力を持つシステムに対処する。
満足度向上のためのエンコーディングと重要な違いをいくつか示し,与えられたタスクに対して完全かつ健全なエンコーディングを提案する。
論文 参考訳(メタデータ) (2020-07-03T04:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。