論文の概要: Origin Tracer: A Method for Detecting LoRA Fine-Tuning Origins in LLMs
- arxiv url: http://arxiv.org/abs/2505.19466v1
- Date: Mon, 26 May 2025 03:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.142981
- Title: Origin Tracer: A Method for Detecting LoRA Fine-Tuning Origins in LLMs
- Title(参考訳): Origin Tracer:LLMにおけるLoRA微調整原点の検出方法
- Authors: Hongyu Liang, Yuting Zheng, Yihan Li, Yiran Zhang, Shiyu Liang,
- Abstract要約: 本稿では,モデルが特定のベースモデルから微調整されたかどうかを厳密に判定する新しい検出法を提案する。
このフレームワークは、モデルファインチューニングのソースをピンポイントすることに特化した形式化されたアプローチを初めて提供する。
我々は,実世界の難読化シナリオをシミュレートした条件下で,31種類のオープンソースモデルに対して,我々の手法を実証的に検証した。
- 参考スコア(独自算出の注目度): 3.925661213372832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to advance, their deployment often involves fine-tuning to enhance performance on specific downstream tasks. However, this customization is sometimes accompanied by misleading claims about the origins, raising significant concerns about transparency and trust within the open-source community. Existing model verification techniques typically assess functional, representational, and weight similarities. However, these approaches often struggle against obfuscation techniques, such as permutations and scaling transformations. To address this limitation, we propose a novel detection method Origin-Tracer that rigorously determines whether a model has been fine-tuned from a specified base model. This method includes the ability to extract the LoRA rank utilized during the fine-tuning process, providing a more robust verification framework. This framework is the first to provide a formalized approach specifically aimed at pinpointing the sources of model fine-tuning. We empirically validated our method on thirty-one diverse open-source models under conditions that simulate real-world obfuscation scenarios. We empirically analyze the effectiveness of our framework and finally, discuss its limitations. The results demonstrate the effectiveness of our approach and indicate its potential to establish new benchmarks for model verification.
- Abstract(参考訳): 大きな言語モデル(LLM)が進歩を続けるにつれて、そのデプロイメントには、特定の下流タスクのパフォーマンスを高めるための微調整が伴うことが多い。
しかしながら、このカスタマイズには、その起源に関する誤解を招き、オープンソースコミュニティ内の透明性と信頼に関する重要な懸念を提起することがある。
既存のモデル検証技術は通常、機能的、表現的、重量的類似性を評価する。
しかしながら、これらのアプローチは、置換やスケーリング変換のような難読化技術に苦慮することが多い。
この制限に対処するため,特定ベースモデルからモデルが微調整されたかどうかを厳格に判定する新しい検出手法であるOrigin-Tracerを提案する。
この方法は、微調整プロセスで利用されるLoRAランクを抽出する機能を含み、より堅牢な検証フレームワークを提供する。
このフレームワークは、モデルファインチューニングのソースをピンポイントすることに特化した形式化されたアプローチを初めて提供する。
我々は,実世界の難読化シナリオをシミュレートした条件下で,31種類のオープンソースモデルに対して,本手法を実証的に検証した。
フレームワークの有効性を実証的に分析し、最後にその限界について議論する。
その結果,本手法の有効性を実証し,モデル検証のための新しいベンチマークを構築する可能性を示した。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference [4.478182379059458]
FidesはML-as-a-Service(ML)推論のリアルタイム整合性検証のための新しいフレームワークである。
Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。
攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。
論文 参考訳(メタデータ) (2023-03-31T19:17:30Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Towards Robust and Reliable Algorithmic Recourse [11.887537452826624]
モデルシフトに堅牢なリコースを見つけるための敵対的トレーニングを活用する新しいフレームワークであるRObust Algorithmic Recourse(ROAR)を提案します。
また,モデルシフトにロバストなリコースの構築の重要性を強調する詳細な理論解析を行う。
論文 参考訳(メタデータ) (2021-02-26T17:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。