論文の概要: Aligning Model Properties via Conformal Risk Control
- arxiv url: http://arxiv.org/abs/2406.18777v2
- Date: Tue, 05 Nov 2024 07:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:28.527669
- Title: Aligning Model Properties via Conformal Risk Control
- Title(参考訳): コンフォーマルリスク制御によるモデル特性の調整
- Authors: William Overman, Jacqueline Jil Vallon, Mohsen Bayati,
- Abstract要約: トレーニング後のアライメントは、人間のフィードバックによって約束されるが、しばしば生成AI設定に限定される。
数値的あるいは分類的な出力を持つ従来の非生成的設定では、単一サンプル出力による誤調整を検出することは依然として困難である。
プロパティテストを通じてモデルアライメントを解釈し、アライメントモデル $f$ を関数のサブセット $mathcalP$ に属するものとして定義する。
- 参考スコア(独自算出の注目度): 4.710921988115686
- License:
- Abstract: AI model alignment is crucial due to inadvertent biases in training data and the underspecified machine learning pipeline, where models with excellent test metrics may not meet end-user requirements. While post-training alignment via human feedback shows promise, these methods are often limited to generative AI settings where humans can interpret and provide feedback on model outputs. In traditional non-generative settings with numerical or categorical outputs, detecting misalignment through single-sample outputs remains challenging, and enforcing alignment during training requires repeating costly training processes. In this paper we consider an alternative strategy. We propose interpreting model alignment through property testing, defining an aligned model $f$ as one belonging to a subset $\mathcal{P}$ of functions that exhibit specific desired behaviors. We focus on post-processing a pre-trained model $f$ to better align with $\mathcal{P}$ using conformal risk control. Specifically, we develop a general procedure for converting queries for testing a given property $\mathcal{P}$ to a collection of loss functions suitable for use in a conformal risk control algorithm. We prove a probabilistic guarantee that the resulting conformal interval around $f$ contains a function approximately satisfying $\mathcal{P}$. We exhibit applications of our methodology on a collection of supervised learning datasets for (shape-constrained) properties such as monotonicity and concavity. The general procedure is flexible and can be applied to a wide range of desired properties. Finally, we prove that pre-trained models will always require alignment techniques even as model sizes or training data increase, as long as the training data contains even small biases.
- Abstract(参考訳): AIモデルのアライメントは、トレーニングデータにおける不注意なバイアスと、優れたテストメトリクスを持つモデルがエンドユーザの要求を満たすことができない、不特定な機械学習パイプラインのため、極めて重要である。
トレーニング後のアライメントは、人間のフィードバックによって約束されるが、これらの方法は、人間が解釈し、モデル出力に対するフィードバックを提供する、生成的なAI設定に制限されることが多い。
数値的あるいは分類的な出力を持つ従来の非生成的設定では、単一サンプル出力による誤調整の検出は依然として困難であり、トレーニング中のアライメントの実施には、コストのかかるトレーニングプロセスの繰り返しが必要となる。
本稿では,代替戦略について考察する。
プロパティテストを通じてモデルアライメントを解釈し、アライメントモデル$f$を、特定の望ましい振る舞いを示す関数のサブセット$\mathcal{P}$に属するものとして定義する。
我々は、共形リスク制御を用いて、事前訓練されたモデル$f$を$\mathcal{P}$に適合させるために後処理することに集中する。
具体的には、所定のプロパティである$\mathcal{P}$を、共形リスク制御アルゴリズムでの使用に適した損失関数の集合に変換するための一般的な手順を開発する。
我々は、$f$ の共形区間が $\mathcal{P}$ をほぼ満足する関数を含むという確率的保証を証明する。
本研究では,モノトニック性や凹凸性などの(形に制約された)特性に対する教師付き学習データセットの収集に対する方法論の適用について述べる。
一般的な手順は柔軟であり、幅広い望ましい性質に適用することができる。
最後に、トレーニングデータに小さなバイアスがなければ、モデルのサイズやトレーニングデータが増えても、事前トレーニングされたモデルは常にアライメント技術を必要とすることを証明します。
関連論文リスト
- MUSO: Achieving Exact Machine Unlearning in Over-Parameterized Regimes [19.664090734076712]
マシン・アンラーニング(MU)は、訓練されたモデルを特定のデータでトレーニングされたことがないかのように振る舞う。
本研究では,学習と学習のタスクを統一する交互最適化アルゴリズムを提案する。
このアルゴリズムの有効性は、数値実験によって確認され、様々なシナリオにおける未学習における優れた性能を強調している。
論文 参考訳(メタデータ) (2024-10-11T06:17:17Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Simfluence: Modeling the Influence of Individual Training Examples by
Simulating Training Runs [27.314239745883967]
トレーニングデータ属性(TDA)メソッドは、任意の例に対するモデルの予測を、特定の影響力のあるトレーニング例に遡る。
そこで本研究では,TDAの新しいパラダイムであるSimfluenceを提案する。
シムフルエンスは非付加的な相互作用を捉え、個々の損失のスパイクな軌道を驚くほどの忠実さで予測することができる。
論文 参考訳(メタデータ) (2023-03-14T17:47:25Z) - On the Provable Advantage of Unsupervised Pretraining [26.065736182939222]
教師なし事前学習は、現代の大規模機械学習システムにおいて重要な要素である。
本稿では、教師なし表現学習タスクを潜在変数モデルの抽象クラスで指定する汎用フレームワークについて検討する。
軽度の'informative'条件下では、下流タスクに対して$tildemathcalO(sqrtmathcalC_Phi/m + sqrtmathcalC_Psi/n)$の過剰なリスクを達成する。
論文 参考訳(メタデータ) (2023-03-02T20:42:05Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。