論文の概要: Improving the Robustness of Large Language Models for Code Tasks via Fine-tuning with Perturbed Data
- arxiv url: http://arxiv.org/abs/2602.11411v1
- Date: Wed, 11 Feb 2026 22:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.562182
- Title: Improving the Robustness of Large Language Models for Code Tasks via Fine-tuning with Perturbed Data
- Title(参考訳): 摂動データを用いた微調整によるコードタスクのための大規模言語モデルのロバスト性向上
- Authors: Yang Liu, Armstrong Foundjem, Xingfang Wu, Heng Li, Foutse Khomh,
- Abstract要約: 本研究の目的は,大規模言語モデルの潜在的な逆入力に対する堅牢性を改善することである。
文字レベル, 単語レベル, 文レベルで摂動したデータセットを用いて, 微調整モデルを用いて頑健さを体系的に評価した。
摂動データセットを持つ微調整モデルは、モデル堅牢性(RDは通常4%から6%程度低下する)を著しく改善する。
- 参考スコア(独自算出の注目度): 10.698357983420928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: In the fast-paced evolution of software development, Large Language Models (LLMs) have become indispensable tools for tasks such as code generation, completion, analysis, and bug fixing. Ensuring the robustness of these models against potential vulnerabilities from handling diverse inputs is critical, as variations in input can lead to incorrect or insecure code outputs. Objective: This work aims to improve the robustness of LLMs for coding-related tasks against potential adversarial inputs. Specifically, we investigate how fine-tuning LLMs with perturbed datasets impacts their robustness against input perturbations. Method: We systematically evaluated LLM robustness by fine-tuning models using datasets perturbed at character-level, word-level, and sentence-level, comparing results against base models and models fine-tuned on unperturbed datasets. Results: Fine-tuning LLMs with perturbed datasets significantly improves model robustness (RD usually drops around 4\% - 6\%), especially for models with relatively weak robustness. However, this fine-tuning process typically results in a slight performance decrease (pass@1 usually drops around 1\% - 3\%) compared to fine-tuning with unperturbed datasets, although occasional performance improvements are observed. Conclusion \& Implications: Fine-tuning LLMs for coding tasks with perturbed data effectively enhances their robustness at the cost of a minor performance reduction, emphasizing the importance of balancing the robustness and performance of LLMs for coding applications.
- Abstract(参考訳): コンテキスト: ソフトウェア開発の急速な進展の中で、コード生成、補完、分析、バグ修正といったタスクには、LLM(Large Language Models)が必須のツールになっています。
多様な入力を扱うことによって潜在的な脆弱性に対して、これらのモデルの堅牢性を確保することは、入力のバリエーションが不正または安全でないコード出力につながる可能性があるため、非常に重要である。
目的: 本研究の目的は,LLMの潜在的な敵入力に対するコーディング関連タスクに対する堅牢性を改善することである。
具体的には、摂動データセットを用いた微調整LDMが入力摂動に対する頑健性に与える影響について検討する。
方法: 文字レベル, 単語レベル, 文レベルに順応したデータセットを用いた微調整モデルを用いて, LLMの頑健さを系統的に評価し, ベースモデルと未飽和データセットを微調整したモデルとの比較を行った。
結果: 摂動データセットを持つ微調整LDMはモデルロバストネスを著しく改善する(RDは通常、比較的弱いロバストネスを持つモデルでは4\%から6\%程度低下する)。
しかし、この微調整プロセスは典型的にはわずかに性能が低下する(pass@1は通常1\%から3\%程度低下する)。
結論 \&含意: 摂動データを用いたコーディングタスクのための微調整LDMは、小さな性能低下のコストでそれらの堅牢性を効果的に向上させ、コーディングアプリケーションにおけるLSMの堅牢性とパフォーマンスのバランスをとることの重要性を強調します。
関連論文リスト
- Step-Opt: Boosting Optimization Modeling in LLMs through Iterative Data Synthesis and Structured Validation [18.18239596347168]
Step-Opt-Instructは、既存のデータセットを拡張し、最適化モデリングに適した高品質な微調整データを生成するフレームワークである。
LLaMA-3-8B や Mistral-7B などのオープンソース LLM を微調整し,NL4OPT,MAMO,IndustrialOR などのベンチマーク上で最先端のパフォーマンスを実現するStep-Opt-a モデルを開発した。
論文 参考訳(メタデータ) (2025-06-21T08:42:27Z) - SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data [15.366930934639838]
モデルロバスト性と一般化を向上する新しいアプローチであるSALADを提案する。
提案手法は,コントラスト学習のための構造認識および非実効的拡張データを生成する。
本研究のアプローチは,感性分類,性行為検出,自然言語推論の3つのタスクを用いて検証する。
論文 参考訳(メタデータ) (2025-04-16T15:40:10Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Towards Resilient and Efficient LLMs: A Comparative Study of Efficiency, Performance, and Adversarial Robustness [0.0]
大規模言語モデル (LLM) の効率性, 性能, 対向ロバスト性の間のトレードオフについて検討する。
我々は,Transformer++, Gated Linear Attention (GLA) Transformer, MatMul-Free LM という,複雑さと効率の異なる3つの顕著なモデルについて実験を行った。
その結果,GLA Transformer と MatMul-Free LM は GLUE タスクではわずかに精度が低いが,高い効率性を示し,AdvGLUE タスクではより優れているか、比較的堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-08-08T16:54:40Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。