論文の概要: An Empirical Study of Sample Selection Strategies for Large Language Model Repair
- arxiv url: http://arxiv.org/abs/2510.20428v1
- Date: Thu, 23 Oct 2025 11:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.816886
- Title: An Empirical Study of Sample Selection Strategies for Large Language Model Repair
- Title(参考訳): 大規模言語モデル修復のためのサンプル選択手法の実証的研究
- Authors: Xuran Li, Jingyi Wang,
- Abstract要約: 大規模言語モデル(LLM)は、現実世界のシステムにますます多くデプロイされている。
LLMは、安全と信頼を損なう有害または偏見のある出力を生成することができる。
ポストホックモデル修復は実用的な治療法であるが、パラメータ更新の高コストは、修理データの選択的利用を動機付けている。
- 参考スコア(独自算出の注目度): 4.123818957003624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in real-world systems, yet they can produce toxic or biased outputs that undermine safety and trust. Post-hoc model repair provides a practical remedy, but the high cost of parameter updates motivates selective use of repair data. Despite extensive prior work on data selection for model training, it remains unclear which sampling criteria are most effective and efficient when applied specifically to behavioral repair of large generative models. Our study presents a systematic analysis of sample prioritization strategies for LLM repair. We evaluate five representative selection methods, including random sampling, K-Center, gradient-norm-based selection(GraNd), stratified coverage (CCS), and a Semantic-Aware Prioritized Sampling (SAPS) approach we proposed. Repair effectiveness and trade-offs are assessed through toxicity reduction, perplexity on WikiText-2 and LAMBADA, and three composite metrics: the Repair Proximity Score (RPS), the Overall Performance Score (OPS), and the Repair Efficiency Score (RES). Experimental results show that SAPS achieves the best balance between detoxification, utility preservation, and efficiency, delivering comparable or superior repair outcomes with substantially less data. Random sampling remains effective for large or robust models, while high-overhead methods such as CCS and GraNd provide limited benefit. The optimal data proportion depends on model scale and repair method, indicating that sample selection should be regarded as a tunable component of repair pipelines. Overall, these findings establish selection-based repair as an efficient and scalable paradigm for maintaining LLM reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界のシステムにますますデプロイされているが、安全と信頼を損なう有毒または偏見のある出力を生成することができる。
ポストホックモデル修復は実用的な治療法であるが、高コストのパラメータ更新は補修データの選択的利用を動機付けている。
モデル学習のためのデータ選択に関する広範な先行研究にもかかわらず、大規模な生成モデルの行動修復に特に適用した場合、どのサンプリング基準が最も効果的かつ効果的かは定かではない。
本研究は, LLM修復における標本優先化戦略の系統的解析である。
我々は、ランダムサンプリング、K-Center、勾配ノルムに基づく選択(GraNd)、階層化カバレッジ(CCS)、Semantic-Aware Prioritized Sampling(SAPS)アプローチを含む5つの代表的な選択方法を評価する。
修復効率とトレードオフは、WikiText-2 と LAMBADA における毒性の低減、パープレキシティ、および3つの複合指標: 修復確率スコア(RPS)、総合性能スコア(OPS)、修復効率スコア(RES)によって評価される。
実験結果から, SAPS は脱毒, 実用性, 効率の最良のバランスを達成し, ほぼ少ないデータで同等あるいは優れた補修結果を提供することがわかった。
ランダムサンプリングは大きなモデルやロバストなモデルでも有効であり、CSやGraNdのようなハイオーバーヘッド手法は限られた利益をもたらす。
最適データ比はモデルスケールと補修法に依存しており、サンプルの選択は補修パイプラインの調整可能なコンポーネントと見なされるべきであることを示している。
これらの結果から,LLMの信頼性を維持するための効率的かつスケーラブルなパラダイムとして,選択ベースの修復が確立された。
関連論文リスト
- Optimizing Active Learning in Vision-Language Models via Parameter-Efficient Uncertainty Calibration [6.7181844004432385]
本稿では,アクティブラーニングフレームワークに不確実な校正損失を組み込んだパラメータ効率学習手法を提案する。
提案手法は,複雑な特徴量に基づくサンプリング手法の性能に適合し,超越できることを実証する。
論文 参考訳(メタデータ) (2025-07-29T06:08:28Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Sample-aware Adaptive Structured Pruning for Large Language Models [14.605017410864583]
本研究では,大規模言語モデル(LLM)のためのサンプル対応型構造化プルーニングフレームワークであるAdaPrunerを紹介する。
特に、AdaPrunerは構造化プルーニング解空間を構築して、LLMから冗長パラメータを効果的に除去する。
20%のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングモデルのパフォーマンスの97%を維持している。
論文 参考訳(メタデータ) (2025-03-08T12:00:21Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement
Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。
システムのサンプリング効率を高めるために,能動的学習法を提案する。
実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文 参考訳(メタデータ) (2020-05-30T06:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。