論文の概要: How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs
- arxiv url: http://arxiv.org/abs/2509.19325v1
- Date: Sat, 13 Sep 2025 18:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.419256
- Title: How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs
- Title(参考訳): データのどのくらいを犠牲にできるか? LLMにおけるドメインパフォーマンスと創発的ミス
- Authors: Jian Ouyang, Arman T, Ge Jin,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の性能と安全性に対する誤りデータの影響について検討する。
我々は、コーディング、ファイナンス、ヘルス、合法の4つの領域で、明らかかつ微妙に不正なデータの両方の比率で微調整されたモデルを評価する。
強靭な性能を継続的に回復するためには、少なくとも50%の正確なデータの明確なしきい値が必要である。
- 参考スコア(独自算出の注目度): 2.4794014826920363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the impact of incorrect data on the performance and safety of large language models (LLMs), specifically gpt-4o, during supervised fine-tuning (SFT). Although LLMs become increasingly vital across broad domains like finance, coding, law, and health, fine-tuning on incorrect data can lead to "emergent misalignment," producing harmful or deceptive outputs unrelated to the intended task. We evaluate gpt-4o models fine-tuned with varying ratios (10\% to 90\% correct) of both obviously and subtly incorrect data across four domains: coding, finance, health, and legal. Our findings show that even modest amounts of incorrect data (10-25\%) dramatically degrade domain performance and not moral alignment. A clear threshold of at least 50\% correct data is needed for models to consistently recover strong performance, though they rarely match the robustness and safety of the base model, which exhibits near-perfect alignment and zero dangerous completions out-of-the-box. This research emphasizes that the cost of incorrect data is heavy, highlighting the critical need for extremely high-quality data curation or, alternatively, leveraging robust base models without unnecessary fine-tuning for high-stakes applications.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLMs),特にgpt-4oにおける教師付き微調整(SFT)における不正データの影響について検討する。
LLMは、金融、コーディング、法律、健康といった幅広い分野においてますます重要になっているが、不正なデータの微調整は「創発的なミスアライメント(emergent misalignment)」につながり、意図されたタスクとは無関係な有害または偽りのアウトプットを生み出す。
我々は、コーディング、ファイナンス、健康、法則の4つの領域において、明らかかつ微妙に不正なデータの比率(10~90%)を微調整したgpt-4oモデルを評価した。
以上の結果から,不適切なデータ(10~25~%)でさえ,モラルアライメントではなく,ドメイン性能を劇的に低下させることが明らかとなった。
モデルが強靭なパフォーマンスを継続的に回復するためには、少なくとも50\%の正確なデータの明確なしきい値が必要であるが、ベースモデルの堅牢性と安全性に適合することは滅多にない。
この研究は、不正なデータのコストが重く、極めて高品質なデータキュレーションの必要性が強調される、あるいは、不要な微調整を伴わない堅牢なベースモデルを高精細なアプリケーションに活用することを強調する。
関連論文リスト
- Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - PatientDx: Merging Large Language Models for Protecting Data-Privacy in Healthcare [2.1046377530356764]
大規模言語モデル(LLM)の微調整は、与えられたタスクにおけるモデルパフォーマンスを改善するためのデフォルトのプラクティスとなっている。
patientDxはモデルマージのフレームワークであり、患者データへの微調整や適応を必要とせずに、健康予測タスクに有効なLCMを設計できる。
論文 参考訳(メタデータ) (2025-04-24T08:21:04Z) - DONOD: Efficient and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning [22.704995231753397]
大規模言語モデル(LLM)のアドホック命令の微調整は、ドメイン固有の適応に広く採用されている。
本研究では,軽量なモデル固有データ解析手法であるDONODを提案する。
データセット全体の70%をフィルタリングすることで、ターゲットドメインの精度を14.90%、クロスドメインの精度を5.67%向上させる。
論文 参考訳(メタデータ) (2025-04-21T02:25:03Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Corrupted but Not Broken: Understanding and Mitigating the Negative Impacts of Corrupted Data in Visual Instruction Tuning [92.16191092329765]
マルチモーダル大言語モデル(MLLM)における劣化データの影響について検討する。
劣化したデータはモデル性能を劣化させるが、そのような悪影響は大部分が可逆的である。
破損したデータの影響を緩和する既存の戦略をはるかに上回る汚職・汚職訓練パラダイムを導入する。
論文 参考訳(メタデータ) (2025-02-18T08:28:29Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - SciFix: Outperforming GPT3 on Scientific Factual Error Correction [9.850216012914684]
SciFixは検証を必要としない科学的クレーム補正システムであり、既存の手法をかなりの差で上回ることができる。
本手法は,学習中にLLMを使ってリッチな注釈付きデータセットを作成することができる。
論文 参考訳(メタデータ) (2023-05-24T04:24:16Z) - Unsupervised Robust Domain Adaptation without Source Data [75.85602424699447]
我々は、利用できないターゲットラベルとソースデータのコンテキストにおけるロバストなドメイン適応の問題について研究する。
4つのベンチマークデータセットでテストされたベースラインに対して10%以上の精度で一貫したパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-03-26T16:42:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。