論文の概要: Aligning Model Properties via Conformal Risk Control
- arxiv url: http://arxiv.org/abs/2406.18777v1
- Date: Wed, 26 Jun 2024 22:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:47:01.270098
- Title: Aligning Model Properties via Conformal Risk Control
- Title(参考訳): コンフォーマルリスク制御によるモデル特性の調整
- Authors: William Overman, Jacqueline Jil Vallon, Mohsen Bayati,
- Abstract要約: AIモデルのアライメントは、トレーニングデータにおける不注意なバイアスと、現代の機械学習における未特定パイプラインのために不可欠である。
最近の進歩は、人間のフィードバックによるトレーニング後のモデルアライメントがこれらの課題のいくつかに対処できることを示している。
プロパティテストを通じてモデルアライメントを解釈し、アライメントモデル $f$ を関数のサブセット $mathcalP$ に属するものとして定義する。
- 参考スコア(独自算出の注目度): 4.710921988115686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI model alignment is crucial due to inadvertent biases in training data and the underspecified pipeline in modern machine learning, where numerous models with excellent test set metrics can be produced, yet they may not meet end-user requirements. Recent advances demonstrate that post-training model alignment via human feedback can address some of these challenges. However, these methods are often confined to settings (such as generative AI) where humans can interpret model outputs and provide feedback. In traditional non-generative settings, where model outputs are numerical values or classes, detecting misalignment through single-sample outputs is highly challenging. In this paper we consider an alternative strategy. We propose interpreting model alignment through property testing, defining an aligned model $f$ as one belonging to a subset $\mathcal{P}$ of functions that exhibit specific desired behaviors. We focus on post-processing a pre-trained model $f$ to better align with $\mathcal{P}$ using conformal risk control. Specifically, we develop a general procedure for converting queries for a given property $\mathcal{P}$ to a collection of loss functions suitable for use in a conformal risk control algorithm. We prove a probabilistic guarantee that the resulting conformal interval around $f$ contains a function approximately satisfying $\mathcal{P}$. Given the capabilities of modern AI models with extensive parameters and training data, one might assume alignment issues will resolve naturally. However, increasing training data or parameters in a random feature model doesn't eliminate the need for alignment techniques when pre-training data is biased. We demonstrate our alignment methodology on supervised learning datasets for properties like monotonicity and concavity. Our flexible procedure can be applied to various desired properties.
- Abstract(参考訳): AIモデルのアライメントは、トレーニングデータの不注意なバイアスと、優れたテストセットのメトリクスを持つ多数のモデルを生成できる現代の機械学習において、不特定パイプラインによって重要であるが、エンドユーザの要求を満たすことはできない。
最近の進歩は、人間のフィードバックによるトレーニング後のモデルアライメントがこれらの課題のいくつかに対処できることを示している。
しかしながら、これらの手法は、人間がモデル出力を解釈し、フィードバックを提供することができる設定(生成AIなど)に限られることが多い。
モデル出力が数値値やクラスである従来の非生成的設定では、単一サンプル出力によるミスアライメントの検出は非常に困難である。
本稿では,代替戦略について考察する。
プロパティテストを通じてモデルアライメントを解釈し、アライメントモデル$f$を、特定の望ましい振る舞いを示す関数のサブセット$\mathcal{P}$に属するものとして定義する。
我々は、共形リスク制御を用いて、事前訓練されたモデル$f$を$\mathcal{P}$に適合させるために後処理することに集中する。
具体的には、所定のプロパティに対して$\mathcal{P}$のクエリを、共形リスク制御アルゴリズムでの使用に適した損失関数の集合に変換するための一般的な手順を開発する。
我々は、$f$ の共形区間が $\mathcal{P}$ をほぼ満足する関数を含むという確率的保証を証明する。
広範なパラメータとトレーニングデータを備えた現代のAIモデルの能力を考えると、アライメントの問題が自然に解決すると仮定される。
しかし、ランダムな特徴モデルにおけるトレーニングデータやパラメータの増加は、事前トレーニングデータがバイアスを受けたときにアライメントテクニックの必要性を排除しない。
単調性や凹凸性などの特性に対する教師付き学習データセットのアライメント手法を実証する。
我々の柔軟な手順は、様々な望ましい性質に適用できる。
関連論文リスト
- Conformalization of Sparse Generalized Linear Models [2.1485350418225244]
等角予測法は、任意の有限サンプルサイズに対して有効である$y_n+1$の信頼セットを推定する。
魅力的ではあるが、そのような集合の計算は多くの回帰問題において計算不可能である。
経路追従アルゴリズムが共形予測集合を正確に近似する方法を示す。
論文 参考訳(メタデータ) (2023-07-11T08:36:12Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Supervised Machine Learning with Plausible Deniability [1.685485565763117]
機械学習(ML)モデルが、特定のデータセットでトレーニングされたモデルが、トレーニングデータに対してどの程度のプライバシを提供するか、という問題について検討する。
我々は、純粋にランダムなトレーニングデータの集合を取ることができ、そこから、ちょうど$f$のMLモデルを生成する'適切な学習ルール'を定義することができることを示す。
論文 参考訳(メタデータ) (2021-06-08T11:54:51Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Query Training: Learning a Worse Model to Infer Better Marginals in
Undirected Graphical Models with Hidden Variables [11.985433487639403]
確率的グラフィカルモデル(PGM)は、柔軟な方法でクエリできる知識のコンパクトな表現を提供する。
我々は,PGMを学習するメカニズムであるクエリトレーニング(QT)を導入し,それと組み合わせる近似推論アルゴリズムに最適化する。
実験により,QTを用いて隠れ変数を持つ8連結グリッドマルコフランダム場を学習できることが実証された。
論文 参考訳(メタデータ) (2020-06-11T20:34:32Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。