論文の概要: Hide and Seek: Fingerprinting Large Language Models with Evolutionary Learning
- arxiv url: http://arxiv.org/abs/2408.02871v1
- Date: Tue, 6 Aug 2024 00:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:19:13.619671
- Title: Hide and Seek: Fingerprinting Large Language Models with Evolutionary Learning
- Title(参考訳): Hide and Seek: 進化的学習による大規模言語モデルのフィンガープリント
- Authors: Dmitri Iourovitski, Sanat Sharma, Rakshak Talwar,
- Abstract要約: 本稿では,Large Language Model (LLM) モデルの指紋認証のための新しいブラックボックス手法を提案する。
モデルの正しいファミリーを特定する際には, 72%の精度が得られた。
この研究は、LLMの振る舞いを理解するための新しい道を開き、モデル帰属、セキュリティ、そしてAI透明性の幅広い分野に重大な影響を与える。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As content generated by Large Language Model (LLM) has grown exponentially, the ability to accurately identify and fingerprint such text has become increasingly crucial. In this work, we introduce a novel black-box approach for fingerprinting LLMs, achieving an impressive 72% accuracy in identifying the correct family of models (Such as Llama, Mistral, Gemma, etc) among a lineup of LLMs. We present an evolutionary strategy that leverages the capabilities of one LLM to discover the most salient features for identifying other LLMs. Our method employs a unique "Hide and Seek" algorithm, where an Auditor LLM generates discriminative prompts, and a Detective LLM analyzes the responses to fingerprint the target models. This approach not only demonstrates the feasibility of LLM-driven model identification but also reveals insights into the semantic manifolds of different LLM families. By iteratively refining prompts through in-context learning, our system uncovers subtle distinctions between model outputs, providing a powerful tool for LLM analysis and verification. This research opens new avenues for understanding LLM behavior and has significant implications for model attribution, security, and the broader field of AI transparency.
- Abstract(参考訳): LLM(Large Language Model)が生成するコンテンツが指数関数的に増加するにつれて、そのようなテキストを正確に識別し、フィンガープリントする能力はますます重要になっている。
そこで本研究では,LLMのラインナップに含まれるモデル群(Such as Llama, Mistral, Gemmaなど)を識別する際, 72%の精度で指紋認証を行う新しいブラックボックス手法を提案する。
我々は,あるLLMの能力を活用して,他のLLMを識別する上で最も有能な特徴を発見する進化的戦略を提案する。
本手法では,識別的プロンプトを生成する独自の「Hide and Seek」アルゴリズムを用いて,対象モデルの指紋に対する応答を検知する。
このアプローチは、LLM駆動モデル同定の実現可能性を示すだけでなく、異なるLLMファミリーのセマンティック多様体に関する洞察も示している。
テキスト内学習を通じてプロンプトを反復的に精錬することにより、モデル出力の微妙な区別を明らかにし、LLM分析と検証のための強力なツールを提供する。
この研究は、LLMの振る舞いを理解するための新しい道を開き、モデル帰属、セキュリティ、そしてAI透明性の幅広い分野に重大な影響を与える。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - LLMmap: Fingerprinting For Large Language Models [15.726286532500971]
LLMmapは、わずか8つのインタラクションで、95%以上の精度で42の異なるLLMバージョンを正確に識別することができる。
潜在的な軽減策について議論し、資源に満ちた敵に対して、効果的な対策が困難か、あるいは実現不可能であることを実証する。
論文 参考訳(メタデータ) (2024-07-22T17:59:45Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。