論文の概要: AlienLM: Alienization of Language for API-Boundary Privacy in Black-Box LLMs
- arxiv url: http://arxiv.org/abs/2601.22710v1
- Date: Fri, 30 Jan 2026 08:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.327075
- Title: AlienLM: Alienization of Language for API-Boundary Privacy in Black-Box LLMs
- Title(参考訳): AlienLM: Black-Box LLMにおけるAPI境界プライバシのための言語分離
- Authors: Jaehee Kim, Pilsung Kang,
- Abstract要約: AlienLMはデプロイ可能なAPIのみのプライバシレイヤで、Alien言語に変換することでテキストを保護する。
本研究は,APIのみのアクセス下でのLLMのプライバシ保護を実現するための実践的経路を示すものである。
- 参考スコア(独自算出の注目度): 5.856906524008202
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern LLMs are increasingly accessed via black-box APIs, requiring users to transmit sensitive prompts, outputs, and fine-tuning data to external providers, creating a critical privacy risk at the API boundary. We introduce AlienLM, a deployable API-only privacy layer that protects text by translating it into an Alien Language via a vocabulary-scale bijection, enabling lossless recovery on the client side. Using only standard fine-tuning APIs, Alien Adaptation Training (AAT) adapts target models to operate directly on alienized inputs. Across four LLM backbones and seven benchmarks, AlienLM retains over 81\% of plaintext-oracle performance on average, substantially outperforming random-bijection and character-level baselines. Under adversaries with access to model weights, corpus statistics, and learning-based inverse translation, recovery attacks reconstruct fewer than 0.22\% of alienized tokens. Our results demonstrate a practical pathway for privacy-preserving LLM deployment under API-only access, substantially reducing plaintext exposure while maintaining task performance.
- Abstract(参考訳): 最新のLCMはブラックボックスAPIを通じてアクセスされ、ユーザは機密性の高いプロンプトや出力、微調整データを外部プロバイダに送信する必要があるため、APIバウンダリにおいて重要なプライバシーリスクが生じる。
私たちはAlienLMを紹介します。AlienLMはデプロイ可能なAPIのみのプライバシレイヤで、語彙スケールのビジェクションを通じて、テキストをAlien言語に翻訳することで、クライアント側でロスレスリカバリを可能にします。
標準の微調整APIのみを使用して、AAT(Alien Adaptation Training)はターゲットモデルを適用して、異種入力を直接操作する。
4つのLLMバックボーンと7つのベンチマークで、AlienLMは平均81パーセント以上のプレーンテキストオーラ性能を保持し、ランダムなビジェクションと文字レベルのベースラインを著しく上回っている。
モデルウェイト、コーパス統計、学習に基づく逆翻訳へのアクセスを持つ敵の下では、回復攻撃は0.22\%未満の異種トークンを再構成する。
本研究は,APIのみのアクセス下でのLLMのプライバシ保護を実現するための実践的経路を示し,タスク性能を維持しながら,プレーンテキストの露出を大幅に低減した。
関連論文リスト
- VortexPIA: Indirect Prompt Injection Attack against LLMs for Efficient Extraction of User Privacy [22.037235521470468]
大規模言語モデル(LLM)は、会話型AI(CAI)に広くデプロイされている。
近年の研究では、LLMベースのCAIを操作して、人間から個人情報を抽出し、重大なセキュリティ上の脅威を生じさせることが示されている。
ブラックボックス設定下でのプライバシー抽出を誘導する新しい間接的インジェクション攻撃であるtextscVortexPIAを提案する。
論文 参考訳(メタデータ) (2025-10-05T15:58:55Z) - Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.70368742538187]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。
Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。
Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (2025-09-17T17:59:21Z) - DP-Fusion: Token-Level Differentially Private Inference for Large Language Models [51.71591819896191]
大規模言語モデル(LLM)は、推論時にプライバシを保存しない。
DP-Fusion は LLM の出力にコンテキスト内のトークンの集合が持つ影響を証明的に束縛する。
提案手法は, 理論的および実証的プライバシを大幅に改善した, 証明可能な民営化文書を作成する。
論文 参考訳(メタデータ) (2025-07-06T20:49:39Z) - I Know What You Said: Unveiling Hardware Cache Side-Channels in Local Large Language Model Inference [19.466754645346175]
ローカルにデプロイ可能な大規模言語モデル(LLM)は、最近、プライバシに敏感なタスクで人気を集めている。
ローカルLSM推論に新たなサイドチャネル脆弱性が出現し、被害者の入力テキストと出力テキストの両方を公開できる。
我々は,オープンソースのLLM推論システムとプロプライエタリなLLM推論システムの両方を対象として,新しい盗聴攻撃フレームワークを設計する。
論文 参考訳(メタデータ) (2025-05-10T19:06:37Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - FDLLM: A Dedicated Detector for Black-Box LLMs Fingerprinting [20.07438999071414]
大規模言語モデル(LLM)は、デジタルコンテンツ作成の風景を急速に変えつつある。
FD-Datasetは、20の有名なプロプライエタリおよびオープンソースLLMから90,000のテキストサンプルからなる総合的なバイリンガルフィンガープリントベンチマークである。
また,パラメータ効率の低いLow-Rank Adaptation (LoRA) を利用して基礎モデルの微調整を行う新しいフィンガープリント手法であるFDLLMを提案する。
論文 参考訳(メタデータ) (2025-01-27T13:18:40Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。