論文の概要: Information Flow Control in Machine Learning through Modular Model Architecture
- arxiv url: http://arxiv.org/abs/2306.03235v2
- Date: Tue, 2 Jul 2024 22:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 20:52:46.284433
- Title: Information Flow Control in Machine Learning through Modular Model Architecture
- Title(参考訳): モジュールモデルアーキテクチャによる機械学習における情報フロー制御
- Authors: Trishita Tiwari, Suchin Gururangan, Chuan Guo, Weizhe Hua, Sanjay Kariyappa, Udit Gupta, Wenjie Xiong, Kiwan Maeng, Hsien-Hsin S. Lee, G. Edward Suh,
- Abstract要約: 今日の機械学習(ML)モデルでは、トレーニングデータの任意の部分がモデル出力に影響を与える可能性がある。
トレーニングデータからモデル出力への情報フローの制御の欠如は、センシティブなデータに対するトレーニングモデルの大きな障害である。
本稿では,機械学習のための情報フロー制御の概念を提案し,トランスフォーマー言語モデルアーキテクチャの拡張を開発する。
- 参考スコア(独自算出の注目度): 28.738597481003335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In today's machine learning (ML) models, any part of the training data can affect the model output. This lack of control for information flow from training data to model output is a major obstacle in training models on sensitive data when access control only allows individual users to access a subset of data. To enable secure machine learning for access-controlled data, we propose the notion of information flow control for machine learning, and develop an extension to the Transformer language model architecture that strictly adheres to the IFC definition we propose. Our architecture controls information flow by limiting the influence of training data from each security domain to a single expert module, and only enables a subset of experts at inference time based on the access control policy.The evaluation using large text and code datasets show that our proposed parametric IFC architecture has minimal (1.9%) performance overhead and can significantly improve model accuracy (by 38% for the text dataset, and between 44%--62% for the code datasets) by enabling training on access-controlled data.
- Abstract(参考訳): 今日の機械学習(ML)モデルでは、トレーニングデータの任意の部分がモデル出力に影響を与える可能性がある。
トレーニングデータからモデル出力への情報フローの制御の欠如は、個々のユーザがデータのサブセットにしかアクセスできない場合にのみ、センシティブなデータに対するトレーニングモデルの大きな障害となる。
アクセス制御データに対するセキュアな機械学習を実現するため,機械学習のための情報フロー制御の概念を提案し,提案するIFC定義に厳密に準拠するTransformer言語モデルアーキテクチャの拡張を開発する。
本アーキテクチャは,各セキュリティドメインから1つのエキスパートモジュールへのトレーニングデータの影響を制限することで情報フローを制御し,アクセス制御ポリシに基づく推論時の専門家のサブセットのみを可能にするとともに,大規模テキストとコードデータセットを用いた評価により,提案したパラメトリックIFCアーキテクチャの性能オーバーヘッドが最小 (1.9%) であり,アクセス制御されたデータのトレーニングを可能にすることにより,モデル精度(テキストデータセットは38%,コードデータセットは44%~62%)を大幅に向上できることを示す。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Personalized Federated Learning with Contextual Modulation and
Meta-Learning [2.7716102039510564]
フェデレーション学習は、分散データソース上で機械学習モデルをトレーニングするための有望なアプローチとして登場した。
本稿では,フェデレートラーニングとメタラーニングを併用して,効率性と一般化能力を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-23T08:18:22Z) - Rethinking Privacy in Machine Learning Pipelines from an Information
Flow Control Perspective [16.487545258246932]
現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。
オーナシップ、アクセス制御、ライセンス情報などのメタデータは、トレーニング中に無視される。
情報フロー制御の観点から機械学習システムを記述する。
論文 参考訳(メタデータ) (2023-11-27T13:14:39Z) - Privacy Side Channels in Machine Learning Systems [87.53240071195168]
プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに,学習データセットに含まれる秘密鍵を抽出するために,言語モデルを学習データ再生からブロックするシステムを利用することを示す。
論文 参考訳(メタデータ) (2023-09-11T16:49:05Z) - Dataset Management Platform for Machine Learning [2.780833557952023]
データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含むデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。
エンジニアは、データセットのバージョンの管理や機械学習タスクのためのデータセットの準備に、かなりの労力と時間を費やしている。
この開示では、データセットを効果的に管理および使用するためのプラットフォームが説明されている。
論文 参考訳(メタデータ) (2023-03-15T01:26:39Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Data Models for Dataset Drift Controls in Machine Learning With Optical
Images [8.818468649062932]
主な障害モードは、トレーニングデータとデプロイメントデータの違いによるパフォーマンス低下である。
既存のアプローチでは、関心の対象であるデータ(データ)の明示的なモデルは説明できない。
本研究では、画像データに対してそのようなデータモデルを構築する方法を示し、データセットのドリフトに関連する下流機械学習モデルの性能を制御する。
論文 参考訳(メタデータ) (2022-11-04T16:50:10Z) - Applied Federated Learning: Architectural Design for Robust and
Efficient Learning in Privacy Aware Settings [0.8454446648908585]
古典的な機械学習パラダイムは、中央にユーザーデータの集約を必要とする。
データの集中化は、内部および外部のセキュリティインシデントのリスクを高めることを含むリスクを引き起こす。
差分プライバシーによるフェデレーション学習は、サーバ側の集中化落とし穴を避けるように設計されている。
論文 参考訳(メタデータ) (2022-06-02T00:30:04Z) - Data-driven Koopman Operators for Model-based Shared Control of
Human-Machine Systems [66.65503164312705]
本稿では,データ駆動型共有制御アルゴリズムを提案する。
ユーザのインタラクションに関するダイナミクスと情報は、Koopman演算子を使用して観察から学習される。
モデルに基づく共有制御は、自然な学習やユーザのみの制御パラダイムと比較して、タスクとコントロールのメトリクスを著しく改善する。
論文 参考訳(メタデータ) (2020-06-12T14:14:07Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。