Fugu-MT 論文翻訳(概要): Success is in the Details: Evaluate and Enhance Details Sensitivity of Code LLMs through Counterfactuals

論文の概要: Success is in the Details: Evaluate and Enhance Details Sensitivity of Code LLMs through Counterfactuals

arxiv url: http://arxiv.org/abs/2505.14597v1
Date: Tue, 20 May 2025 16:48:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.590918
Title: Success is in the Details: Evaluate and Enhance Details Sensitivity of Code LLMs through Counterfactuals
Title（参考訳）: 成功は細部にある: カウンターファクティクスによるコードLLMの細部感性の評価と強化
Authors: Xianzhen Luo, Qingfu Zhu, Zhiming Zhang, Mingzheng Xu, Tianhao Cheng, Yixuan Wang, Zheng Chu, Shijie Xuyang, Zhiyuan Ma, YuanTao Fan, Wanxiang Che,
Abstract要約: コード感度(Code Sensitivity)とは、コードLLMが問題記述の詳細な変更を認識し、応答する能力である。まず, 対実摂動を用いたCTF-Codeベンチマークを紹介する。感度を完全に活用するために、インクリメンタルインストラクションの微調整フレームワークであるCTF-Instructは、既存のデータに拡張し、選択メカニズムを使用して難易度、多様性、感度の3次元を満たす。
参考スコア（独自算出の注目度）: 48.01156035321461
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code Sensitivity refers to the ability of Code LLMs to recognize and respond to details changes in problem descriptions. While current code benchmarks and instruction data focus on difficulty and diversity, sensitivity is overlooked. We first introduce the CTF-Code benchmark, constructed using counterfactual perturbations, minimizing input changes while maximizing output changes. The evaluation shows that many LLMs have a more than 10\% performance drop compared to the original problems. To fully utilize sensitivity, CTF-Instruct, an incremental instruction fine-tuning framework, extends on existing data and uses a selection mechanism to meet the three dimensions of difficulty, diversity, and sensitivity. Experiments show that LLMs fine-tuned with CTF-Instruct data achieve over a 2\% improvement on CTF-Code, and more than a 10\% performance boost on LiveCodeBench, validating the feasibility of enhancing LLMs' sensitivity to improve performance.
Abstract（参考訳）: コード感度(Code Sensitivity)とは、コードLLMが問題記述の詳細な変更を認識し、応答する能力である。現在のコードベンチマークとインストラクションデータは難易度と多様性に重点を置いているが、感度は見過ごされている。まずCTF-Codeベンチマークを導入し,出力変化を最大化しながら入力変化を最小限に抑える。評価の結果,多くのLCMは従来の問題に比べて10倍以上の性能低下を示した。感度を完全に活用するために、インクリメンタルインストラクションの微調整フレームワークであるCTF-Instructは、既存のデータに拡張し、選択メカニズムを使用して難易度、多様性、感度の3次元を満たす。 CTF-Instruct データで微調整された LLM は CTF-Code では 2 % 以上の改善を実現し,LiveCodeBench では 10 % 以上のパフォーマンス向上を実現している。

関連論文リスト

Improving Code LLM Robustness to Prompt Perturbations via Layer-Aware Model Editing [13.099973383252452]
大規模言語モデル(LLM)は、急激な摂動に対して非常に敏感である。ターゲットパラメータの更新によってLCMの堅牢性を高める新しいアプローチであるCREMEを導入する。実験の結果,CREMEは摂動プロンプトでPass@1の精度を63%向上することがわかった。
論文参考訳（メタデータ） (2025-07-22T09:57:55Z)
Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
FAIT: Fault-Aware Fine-Tuning for Better Code Generation [11.8755180563981]
本研究では、命令調整された大規模言語モデルのコード生成を強化するために、FAIT(Fault-Aware Fine-Tuning)を提案する。本手法は,パス@1の相対的改善率を6.9%向上させる。改良された6.7B LLMは、GPT-3.5-Turboなどのクローズドソースモデルより優れている。
論文参考訳（メタデータ） (2025-03-21T07:23:26Z)
Self-Explained Keywords Empower Large Language Models for Code Generation [5.236633572296712]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。 Sek(textbfSelf-textbfExplained textbfKeywords)は、LLM自体による問題記述における重要な用語を抽出し、説明する。
論文参考訳（メタデータ） (2024-10-21T12:52:03Z)
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:16:03Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。感度はプロンプトの言い換えによる予測の変化を測るその代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文参考訳（メタデータ） (2024-06-18T06:59:24Z)
DeepEdit: Knowledge Editing as Decoding with Constraints [118.78008395850888]
多段階推論における知識の編集は、大規模言語モデル(LLM)の知識編集(KE)において大きな課題となっている。我々は、深度優先探索により新しい知識を持つコヒーレント推論チェーンを生成するLLMの能力を高める新しいKEフレームワークDEEPEDITを提案する。 DEEPEDITに加えて, MQUAKE-2002 と MQUAKE-HARD という2つの新しい KE ベンチマークを提案する。
論文参考訳（メタデータ） (2024-01-19T03:48:27Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Improving Translation Faithfulness of Large Language Models via Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。 SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。 OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文参考訳（メタデータ） (2023-08-24T09:32:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。