論文の概要: The Challenge of Identifying the Origin of Black-Box Large Language Models
- arxiv url: http://arxiv.org/abs/2503.04332v1
- Date: Thu, 06 Mar 2025 11:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:27.400836
- Title: The Challenge of Identifying the Origin of Black-Box Large Language Models
- Title(参考訳): ブラックボックス大言語モデルの起源の解明への挑戦
- Authors: Ziqing Yang, Yixin Wu, Yun Shen, Wei Dai, Michael Backes, Yang Zhang,
- Abstract要約: サードパーティは、微調整によって大きな言語モデル(LLM)をカスタマイズでき、ブラックボックスのAPIアクセスのみを提供する。
この慣行は不正競争を悪化させるだけでなく、ライセンス契約に違反している。
本稿では,LLMに逆トークン埋め込みを積極的にプラグインしてトレースと識別を行うPlugAEを提案する。
- 参考スコア(独自算出の注目度): 34.284190160785336
- License:
- Abstract: The tremendous commercial potential of large language models (LLMs) has heightened concerns about their unauthorized use. Third parties can customize LLMs through fine-tuning and offer only black-box API access, effectively concealing unauthorized usage and complicating external auditing processes. This practice not only exacerbates unfair competition, but also violates licensing agreements. In response, identifying the origin of black-box LLMs is an intrinsic solution to this issue. In this paper, we first reveal the limitations of state-of-the-art passive and proactive identification methods with experiments on 30 LLMs and two real-world black-box APIs. Then, we propose the proactive technique, PlugAE, which optimizes adversarial token embeddings in a continuous space and proactively plugs them into the LLM for tracing and identification. The experiments show that PlugAE can achieve substantial improvement in identifying fine-tuned derivatives. We further advocate for legal frameworks and regulations to better address the challenges posed by the unauthorized use of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の巨大な商業的潜在能力は、許可されていない使用に対する懸念を高めている。
サードパーティは、微調整でLCMをカスタマイズでき、ブラックボックスのAPIアクセスのみを提供し、不正使用を効果的に隠蔽し、外部監査プロセスを複雑にする。
この慣行は不正競争を悪化させるだけでなく、ライセンス契約に違反している。
これに対し、ブラックボックスLSMの起源を特定することは本質的な解決法である。
本稿では,30 LLMと2つの実世界のブラックボックスAPIを用いた実験により,最先端の受動的・能動的識別手法の限界を明らかにする。
そこで本稿では,連続空間における逆トークンの埋め込みを最適化し,それをLLMに積極的にプラグインしてトレースと識別を行う,プロアクティブ手法 PlugAEを提案する。
実験により、PlugAEは微調整された誘導体の同定において大幅な改善を達成できることが示された。
我々はさらに、LLMの無許可使用による課題に対処するために、法的枠組みと規制を提唱する。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - CALM: Curiosity-Driven Auditing for Large Language Models [27.302357350862085]
本稿では,LLMを監査エージェントとして微調整するために,大規模言語モデルのための好奇心駆動型監査(CALM)を提案する。
CALMは、有名人を含む嫌悪的な完成をうまく識別し、ブラックボックス設定の下で特定の名前を引き出す入力を明らかにする。
論文 参考訳(メタデータ) (2025-01-06T13:14:34Z) - Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - Matryoshka: Learning to Drive Black-Box LLMs with LLMs [31.501244808646]
Matryoshikaは軽量のホワイトボックス大型言語モデルコントローラである。
複雑なタスクを一連の中間出力に分解することで、大規模なブラックボックスLCMジェネレータを誘導する。
論文 参考訳(メタデータ) (2024-10-28T05:28:51Z) - From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [91.79567270986901]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。
そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:01:37Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification [41.25887364156612]
ブラックボックス認証(BBIV)の新たな指紋認証問題について述べる。
目標は、サードパーティアプリケーションがチャット機能を通じて特定のLLMを使用するかどうかを判断することである。
本稿では,TRAP (Targeted Random Adversarial Prompt) と呼ばれる,特定のLPMを識別する手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T13:20:39Z) - Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access [14.283269607549892]
我々は,ブラックボックス大言語モデル(LLM)の制約付き復号法として,スケッチガイド付き制約付き復号法(SGCD)を導入する。
SGCDはブラックボックスLSMのロジットにアクセスすることなく動作する。
閉情報抽出および選挙区解析における実験によるSGCDの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-18T13:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。