論文の概要: From Data to Behavior: Predicting Unintended Model Behaviors Before Training
- arxiv url: http://arxiv.org/abs/2602.04735v1
- Date: Wed, 04 Feb 2026 16:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.631035
- Title: From Data to Behavior: Predicting Unintended Model Behaviors Before Training
- Title(参考訳): データから行動へ:トレーニング前に意図しないモデル行動を予測する
- Authors: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang,
- Abstract要約: トレーニング前に意図しないモデルの振る舞いを予測する新しいタスクであるData2Behaviorを紹介する。
また,その平均表現を通して候補データを要約する軽量な手法として,MDF(Manipulating Data Features)を提案する。
Qwen3-14B、Qwen2.5-32B-Instruct、Gemma-3-12b-itの実験では、MDFは意図しない振る舞いを予測でき、事前訓練済みの脆弱性に関する洞察を与える。
- 参考スコア(独自算出の注目度): 78.37660873165284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.
- Abstract(参考訳): 大きな言語モデル(LLM)は、明示的な手がかりや悪意のあるコンテンツなしでも、一見良心的なトレーニングデータから意図しないバイアスを取得することができる。
既存の方法は、微調整の前にそのようなリスクを検出するのに苦労し、ポストホック評価を高価かつ非効率にする。
この課題に対処するために、トレーニング前に意図しないモデルの振る舞いを予測する新しいタスクであるData2Behaviorを紹介します。
また,提案手法は,平均表現を通して候補データを要約してベースモデルの前方通過に注入し,データ内の遅延統計信号がモデルアクティベーションを形成し,パラメータを更新することなく潜在的なバイアスや安全性リスクを明らかにする軽量な手法である。
MDFは信頼性の高い予測を実現し、微調整に必要なGPUリソースの約20%しか消費しない。
Qwen3-14B、Qwen2.5-32B-Instruct、Gemma-3-12b-itの実験では、MDFは意図しない振る舞いを予測でき、事前訓練済みの脆弱性に関する洞察を与える。
関連論文リスト
- Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Statistically Testing Training Data for Unwanted Error Patterns using Rule-Oriented Regression [0.5831737970661137]
本稿では,欠陥に対するトレーニングデータをテストし,その後の機械学習モデルのトレーニングのための信頼性の高い基盤構造を確立する方法を提案する。
我々の手法は、テスト条件'をデータ内のパターンを記述する条件とすることで、従来の統計的テストの能力を拡張します。
デモと実験のためのオープンソース実装を提供しています。
論文 参考訳(メタデータ) (2025-03-24T09:52:36Z) - Generative Data Mining with Longtail-Guided Diffusion [39.460272573196896]
トレーニング中に追加データを想像することで,プロアクティブなロングテール発見プロセスを開発する。
我々はこれらの信号をガイダンスとして利用し、潜在拡散モデルから追加のトレーニングデータを生成する。
中間拡散状態に予測モデルを公開する必要はない。
論文 参考訳(メタデータ) (2025-02-04T03:51:00Z) - Ask Your Distribution Shift if Pre-Training is Right for You [67.90850628695563]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。