論文の概要: An Empirical Study of Safetensors' Usage Trends and Developers' Perceptions
- arxiv url: http://arxiv.org/abs/2501.02170v1
- Date: Sat, 04 Jan 2025 03:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:33.783775
- Title: An Empirical Study of Safetensors' Usage Trends and Developers' Perceptions
- Title(参考訳): セーフテンサの利用動向と開発者の認識に関する実証的研究
- Authors: Beatrice Casey, Kaia Damian, Andrew Cotaj, Joanna C. S. Santos,
- Abstract要約: 本稿では,Hugging Face上でのセーフテンソル利用への開発者のシフトについて検討する。
より多くの開発者がセーフテンソルを採用しており、多くのセーフテンソルの採用は既存のモデルの自動変換によって行われています。
しかし、ほとんどの開発者は変換ツールのプルリクエストを無視していることもわかりました。
- 参考スコア(独自算出の注目度): 0.5137309756089941
- License:
- Abstract: Developers are sharing pre-trained Machine Learning (ML) models through a variety of model sharing platforms, such as Hugging Face, in an effort to make ML development more collaborative. To share the models, they must first be serialized. While there are many methods of serialization in Python, most of them are unsafe. To tame this insecurity, Hugging Face released safetensors as a way to mitigate the threats posed by unsafe serialization formats. In this context, this paper investigates developer's shifts towards using safetensors on Hugging Face in an effort to understand security practices in the ML development community, as well as how developers react to new methods of serialization. Our results find that more developers are adopting safetensors, and many safetensor adoptions were made by automated conversions of existing models by Hugging Face's conversion tool. We also found, however, that a majority of developers ignore the conversion tool's pull requests, and that while many developers are facing issues with using safetensors, they are eager to learn about and adapt the format.
- Abstract(参考訳): 開発者は、ML開発をより協力的にするために、Hugging Faceのようなさまざまなモデル共有プラットフォームを通じて、事前トレーニングされた機械学習(ML)モデルを共有している。
モデルを共有するには、まずシリアライズする必要がある。
Pythonにはシリアライゼーションの方法がたくさんあるが、そのほとんどは安全ではない。
この不安を和らげるために、Hugging Faceは安全でないシリアライゼーションフォーマットによって引き起こされる脅威を軽減する手段として、セーフテンソルをリリースした。
本稿では,ML開発コミュニティのセキュリティプラクティスを理解するため,Hugging Face上でのセーフテンソルの使用に対する開発者のシフトと,新たなシリアライゼーション手法に対する開発者の反応について検討する。
以上の結果から,Hugging Faceの変換ツールによる既存モデルの自動変換によって,多くのセーフテンソルが採用されていることが判明した。
しかし、ほとんどの開発者は変換ツールのプルリクエストを無視しており、多くの開発者はセーフテンソルの使用の問題に直面しているが、フォーマットについて学び、適応することを熱望している。
関連論文リスト
- A Large-Scale Exploit Instrumentation Study of AI/ML Supply Chain Attacks in Hugging Face Models [3.6731536660959985]
Hugging Faceは、開発者が他のモデルを共有してダウンロードできるオープンソースのプラットフォームとして機能する。
Pythonのシリアライゼーションメソッドは、オブジェクトインジェクションに弱いため、安全ではないと考えられている。
本稿では、Hugging Faceにおけるこれらの安全でないシリアライズ手法の広範性について検討する。
論文 参考訳(メタデータ) (2024-10-06T14:09:54Z) - A Disguised Wolf Is More Harmful Than a Toothless Tiger: Adaptive Malicious Code Injection Backdoor Attack Leveraging User Behavior as Triggers [15.339528712960021]
まず,コード生成シナリオにおけるセキュリティ問題に焦点を当てたゲーム理論モデルを提案する。
このフレームワークは、攻撃者が悪意のあるコードモデルを広げてセキュリティ脅威を発生させる可能性のあるシナリオとパターンを概説する。
また、攻撃者がバックドアアタックを使用して悪意のあるコードインジェクションのタイミングを動的に調整できることも初めて指摘した。
論文 参考訳(メタデータ) (2024-08-19T18:18:04Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z) - SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models [74.58014281829946]
本研究では, モデル盗難攻撃, メンバーシップ推論攻撃, パブリックモデルにおけるバックドア検出など, いくつかの代表的な攻撃・防御の有効性を解析する。
実験により,これらの攻撃・防御性能は,自己学習モデルと比較して,公共モデルによって大きく異なることが示された。
論文 参考訳(メタデータ) (2023-10-19T11:49:22Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。