論文の概要: Independence Tests for Language Models
- arxiv url: http://arxiv.org/abs/2502.12292v1
- Date: Mon, 17 Feb 2025 20:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:23.580227
- Title: Independence Tests for Language Models
- Title(参考訳): 言語モデルの独立性テスト
- Authors: Sally Zhu, Ahmed Ahmed, Rohith Kuditipudi, Percy Liang,
- Abstract要約: 2つのモデルの重みを考えると、独立してトレーニングされたかどうかテストできますか?
制約付きと制約なしの2つの設定を検討します。
本稿では,2つのモデル間の隠れアクティベーションに一致し,逆変換やモデルアーキテクチャの変更に対して堅牢な新しいテストを提案する。
- 参考スコア(独自算出の注目度): 47.0749292650885
- License:
- Abstract: We consider the following problem: given the weights of two models, can we test whether they were trained independently -- i.e., from independent random initializations? We consider two settings: constrained and unconstrained. In the constrained setting, we make assumptions about model architecture and training and propose a family of statistical tests that yield exact p-values with respect to the null hypothesis that the models are trained from independent random initializations. These p-values are valid regardless of the composition of either model's training data; we compute them by simulating exchangeable copies of each model under our assumptions and comparing various similarity measures of weights and activations between the original two models versus these copies. We report the p-values from these tests on pairs of 21 open-weight models (210 total pairs) and correctly identify all pairs of non-independent models. Our tests remain effective even if one model was fine-tuned for many tokens. In the unconstrained setting, where we make no assumptions about training procedures, can change model architecture, and allow for adversarial evasion attacks, the previous tests no longer work. Instead, we propose a new test which matches hidden activations between two models, and which is robust to adversarial transformations and to changes in model architecture. The test can also do localized testing: identifying specific non-independent components of models. Though we no longer obtain exact p-values from this, empirically we find it behaves as one and reliably identifies non-independent models. Notably, we can use the test to identify specific parts of one model that are derived from another (e.g., how Llama 3.1-8B was pruned to initialize Llama 3.2-3B, or shared layers between Mistral-7B and StripedHyena-7B), and it is even robust to retraining individual layers of either model from scratch.
- Abstract(参考訳): 2つのモデルの重みを考えると、それらが独立的に訓練されたかどうか、すなわち独立したランダム初期化から検証できるだろうか?
制約付きと制約なしの2つの設定を検討します。
制約された環境では、モデルアーキテクチャとトレーニングについて仮定を行い、モデルが独立したランダム初期化から訓練されているというヌル仮説に関して、正確なp値を生成する統計的テストの族を提案する。
これらのp-値は、いずれのモデルのトレーニングデータの構成にかかわらず有効であり、仮定の下で各モデルの交換可能なコピーをシミュレートし、元の2つのモデルとこれらのコピーとの重み付けとアクティベーションの様々な類似度尺度を比較して計算する。
これらの実験から得られたp値について,21個のオープンウェイトモデル(全対210個)のペアで報告し,非独立モデルのすべてのペアを正しく同定する。
私たちのテストは、もし1つのモデルが多くのトークンに対して微調整されていたとしても、有効です。
トレーニング手順を前提にしない制約のない環境では、モデルアーキテクチャを変更し、敵の回避攻撃を可能にするため、以前のテストはもはや機能しない。
代わりに,2つのモデル間の隠れアクティベーションに一致し,逆変換やモデルアーキテクチャの変更に対して堅牢な新しいテストを提案する。
テストはまた、モデルの特定の非依存コンポーネントを特定する、局所的なテストも行うことができる。
このことから、もはや正確な p-値を得ることはできないが、経験的にそれは1つとして振る舞うことができ、非独立なモデルを確実に特定することができる。
例えば、Llama 3.1-8BはどのようにしてLlama 3.2-3Bを初期化するか、Mistral-7BとStripedHyena-7B間の共有層を初期化するか)を特定できる。
関連論文リスト
- Crowdsourcing with Difficulty: A Bayesian Rating Model for Heterogeneous Items [0.716879432974126]
応用統計学と機械学習では、訓練に使用される「金の標準」はしばしば偏りがあり、ほとんど常にうるさい。
DawidとSkeneの人気の高いクラウドソーシングモデルは、レーダ(コーダ、アノテータ)の感度と特異性を調整するが、トレーニングのために収集されたレーティングデータの分布特性を捉えない。
本稿では,難易度,差別性,推測可能性に項目レベルの効果を加えることで,コンセンサスカテゴリを推測できる汎用計測エラーモデルを提案する。
論文 参考訳(メタデータ) (2024-05-29T20:59:28Z) - Self-Consistency of Large Language Models under Ambiguity [4.141513298907867]
本研究は,不特定の場合の自己整合性評価ベンチマークを示す。
あいまいな整数列補完タスクを用いて,OpenAIモデルスイート上で一連の動作実験を行う。
平均一貫性は67%から82%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高い。
論文 参考訳(メタデータ) (2023-10-20T11:57:56Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - A Simple Unified Approach to Testing High-Dimensional Conditional
Independences for Categorical and Ordinal Data [0.26651200086513094]
条件独立テスト(CI)は、因果推論におけるモデルテストと構造学習に多くのアプローチをとる。
分類データと順序データのための既存のCIテストは、条件変数によってサンプルを階層化し、各層で単純な独立テストを実行し、結果を組み合わせる。
本稿では,高次元における適切なキャリブレーションとパワーを維持するための,順序データと分類データに対する簡易な統合CIテストを提案する。
論文 参考訳(メタデータ) (2022-06-09T08:56:12Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - ModelDiff: Testing-Based DNN Similarity Comparison for Model Reuse
Detection [9.106864924968251]
ModelDiffは、ディープラーニングモデル類似性比較に対するテストベースのアプローチである。
モバイルディープラーニングアプリの研究は、現実世界のモデルにおけるModelDiffの可能性を示している。
論文 参考訳(メタデータ) (2021-06-11T15:16:18Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。