論文の概要: GPT, But Backwards: Exactly Inverting Language Model Outputs
- arxiv url: http://arxiv.org/abs/2507.01693v2
- Date: Mon, 10 Nov 2025 15:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:55:59.99686
- Title: GPT, But Backwards: Exactly Inverting Language Model Outputs
- Title(参考訳): GPT, but backwards: 言語モデルの出力を正確に反転させる
- Authors: Adrians Skapars, Edoardo Manino, Youcheng Sun, Lucas C. Cordeiro,
- Abstract要約: 本稿では,Sparse One-Hot Discrete Adam (SODA)アルゴリズムを提案する。
実験では、自然言語とランダム入力の両方において、正確な言語モデルの逆変換が可能であることを示す。
- 参考スコア(独自算出の注目度): 7.736516533045638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of reconstructing unknown textual inputs to language models is a fundamental auditing primitive that allows us to assess the model's vulnerability to a range of security issues, including stealing hidden system prompts, detecting backdoors, and leaking private data. Existing inversion works assume access to differing levels of information (e.g. requiring input-output examples, the model parameters, intermediate activations or output logits) but oftentimes fail to fully reconstruct the desired input. In this paper, we present the Sparse One-hot Discrete Adam (SODA) algorithm, a search-based inversion method that can accurately reconstruct the input text, given white-box access to the language model and its output. Our experiments demonstrate for the first time that exact language model inversion is possible on both natural language and random inputs. Indeed, SODA achieves respectively 98% and 79% reconstruction rates on inputs with lengths up to 10 tokens. Furthermore, we show that input length and vocabulary size have a far greater impact on the probability of a successful reconstruction than the size of the language model itself, thus allowing us to scale to models from 33M to 3B parameters.
- Abstract(参考訳): 未知のテキスト入力を言語モデルに再構築する作業は、隠れたシステムプロンプトの盗難、バックドアの検出、プライベートデータの漏洩など、さまざまなセキュリティ問題に対するモデルの脆弱性の評価を可能にする、基本的な監査プリミティブである。
既存のインバージョン作業では、異なるレベルの情報(例えば、入力出力の例、モデルパラメータ、中間アクティベーション、出力ロジット)へのアクセスを前提としているが、多くの場合、望まれる入力を完全に再構築することができない。
本稿では,Sparse One-Hot Discrete Adam (SODA)アルゴリズムを提案する。
我々の実験は、自然言語とランダム入力の両方において、正確な言語モデルの逆変換が可能であることを初めて実証した。
実際、SODAは最大10個のトークンを持つ入力に対して、それぞれ98%と79%の復元率を達成する。
さらに,入力長と語彙サイズが言語モデル自体のサイズよりもはるかに大きな影響があることを示し,33Mから3Bパラメータのモデルにスケールできることを示した。
関連論文リスト
- From Output to Evaluation: Does Raw Instruction-Tuned Code LLMs Output Suffice for Fill-in-the-Middle Code Generation? [35.07534339463043]
ファイリング・イン・ザ・ミドル(FIM)コード生成におけるLCMの自動評価には,後処理が不可欠である。
本研究では,LLM出力の処理後処理の必要性について検討する。
論文 参考訳(メタデータ) (2025-05-24T17:06:47Z) - PEEL the Layers and Find Yourself: Revisiting Inference-time Data Leakage for Residual Neural Networks [64.90981115460937]
本稿では、ディープニューラルネットワーク(NN)の推論時データ漏洩リスクについて検討する。
残差NNの中間出力からブロックワイズ入力特徴を効果的に回収できる新しい後方特徴逆変換法である textbfPEEL を提案する。
その結果,平均二乗誤差 (MSE) で評価した場合,PEEL は最先端の回収方法よりも桁違いに優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-08T20:11:05Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Learning on LLM Output Signatures for gray-box Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。
グレーボックス設定におけるプロセス汚染とデータ検出のためのトランスフォーマーベースのアプローチを開発する。
提案手法は,グレーボックス設定における幻覚とデータ検出における優れた性能を実現し,既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - Rethinking Uncertainty Estimation in Natural Language Generation [6.3398383724486544]
大規模言語モデル(LLM)は、現実のアプリケーションにますます採用されている。
不確実性推定法は複数の出力シーケンスを生成し解析し、LCMの不確実性を決定する。
単一出力シーケンスのみを用いて得られる利点を持つG-NLLを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:51:06Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。