論文の概要: Aligning Model Properties via Conformal Risk Control
- arxiv url: http://arxiv.org/abs/2406.18777v1
- Date: Wed, 26 Jun 2024 22:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:47:01.270098
- Title: Aligning Model Properties via Conformal Risk Control
- Title(参考訳): コンフォーマルリスク制御によるモデル特性の調整
- Authors: William Overman, Jacqueline Jil Vallon, Mohsen Bayati,
- Abstract要約: AIモデルのアライメントは、トレーニングデータにおける不注意なバイアスと、現代の機械学習における未特定パイプラインのために不可欠である。
最近の進歩は、人間のフィードバックによるトレーニング後のモデルアライメントがこれらの課題のいくつかに対処できることを示している。
プロパティテストを通じてモデルアライメントを解釈し、アライメントモデル $f$ を関数のサブセット $mathcalP$ に属するものとして定義する。
- 参考スコア(独自算出の注目度): 4.710921988115686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI model alignment is crucial due to inadvertent biases in training data and the underspecified pipeline in modern machine learning, where numerous models with excellent test set metrics can be produced, yet they may not meet end-user requirements. Recent advances demonstrate that post-training model alignment via human feedback can address some of these challenges. However, these methods are often confined to settings (such as generative AI) where humans can interpret model outputs and provide feedback. In traditional non-generative settings, where model outputs are numerical values or classes, detecting misalignment through single-sample outputs is highly challenging. In this paper we consider an alternative strategy. We propose interpreting model alignment through property testing, defining an aligned model $f$ as one belonging to a subset $\mathcal{P}$ of functions that exhibit specific desired behaviors. We focus on post-processing a pre-trained model $f$ to better align with $\mathcal{P}$ using conformal risk control. Specifically, we develop a general procedure for converting queries for a given property $\mathcal{P}$ to a collection of loss functions suitable for use in a conformal risk control algorithm. We prove a probabilistic guarantee that the resulting conformal interval around $f$ contains a function approximately satisfying $\mathcal{P}$. Given the capabilities of modern AI models with extensive parameters and training data, one might assume alignment issues will resolve naturally. However, increasing training data or parameters in a random feature model doesn't eliminate the need for alignment techniques when pre-training data is biased. We demonstrate our alignment methodology on supervised learning datasets for properties like monotonicity and concavity. Our flexible procedure can be applied to various desired properties.
- Abstract(参考訳): AIモデルのアライメントは、トレーニングデータの不注意なバイアスと、優れたテストセットのメトリクスを持つ多数のモデルを生成できる現代の機械学習において、不特定パイプラインによって重要であるが、エンドユーザの要求を満たすことはできない。
最近の進歩は、人間のフィードバックによるトレーニング後のモデルアライメントがこれらの課題のいくつかに対処できることを示している。
しかしながら、これらの手法は、人間がモデル出力を解釈し、フィードバックを提供することができる設定(生成AIなど)に限られることが多い。
モデル出力が数値値やクラスである従来の非生成的設定では、単一サンプル出力によるミスアライメントの検出は非常に困難である。
本稿では,代替戦略について考察する。
プロパティテストを通じてモデルアライメントを解釈し、アライメントモデル$f$を、特定の望ましい振る舞いを示す関数のサブセット$\mathcal{P}$に属するものとして定義する。
我々は、共形リスク制御を用いて、事前訓練されたモデル$f$を$\mathcal{P}$に適合させるために後処理することに集中する。
具体的には、所定のプロパティに対して$\mathcal{P}$のクエリを、共形リスク制御アルゴリズムでの使用に適した損失関数の集合に変換するための一般的な手順を開発する。
我々は、$f$ の共形区間が $\mathcal{P}$ をほぼ満足する関数を含むという確率的保証を証明する。
広範なパラメータとトレーニングデータを備えた現代のAIモデルの能力を考えると、アライメントの問題が自然に解決すると仮定される。
しかし、ランダムな特徴モデルにおけるトレーニングデータやパラメータの増加は、事前トレーニングデータがバイアスを受けたときにアライメントテクニックの必要性を排除しない。
単調性や凹凸性などの特性に対する教師付き学習データセットのアライメント手法を実証する。
我々の柔軟な手順は、様々な望ましい性質に適用できる。
関連論文リスト
- MUSO: Achieving Exact Machine Unlearning in Over-Parameterized Regimes [19.664090734076712]
マシン・アンラーニング(MU)は、訓練されたモデルを特定のデータでトレーニングされたことがないかのように振る舞う。
本研究では,学習と学習のタスクを統一する交互最適化アルゴリズムを提案する。
このアルゴリズムの有効性は、数値実験によって確認され、様々なシナリオにおける未学習における優れた性能を強調している。
論文 参考訳(メタデータ) (2024-10-11T06:17:17Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Simfluence: Modeling the Influence of Individual Training Examples by
Simulating Training Runs [27.314239745883967]
トレーニングデータ属性(TDA)メソッドは、任意の例に対するモデルの予測を、特定の影響力のあるトレーニング例に遡る。
そこで本研究では,TDAの新しいパラダイムであるSimfluenceを提案する。
シムフルエンスは非付加的な相互作用を捉え、個々の損失のスパイクな軌道を驚くほどの忠実さで予測することができる。
論文 参考訳(メタデータ) (2023-03-14T17:47:25Z) - On the Provable Advantage of Unsupervised Pretraining [26.065736182939222]
教師なし事前学習は、現代の大規模機械学習システムにおいて重要な要素である。
本稿では、教師なし表現学習タスクを潜在変数モデルの抽象クラスで指定する汎用フレームワークについて検討する。
軽度の'informative'条件下では、下流タスクに対して$tildemathcalO(sqrtmathcalC_Phi/m + sqrtmathcalC_Psi/n)$の過剰なリスクを達成する。
論文 参考訳(メタデータ) (2023-03-02T20:42:05Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。