論文の概要: GPT, But Backwards: Exactly Inverting Language Model Outputs
- arxiv url: http://arxiv.org/abs/2507.01693v1
- Date: Wed, 02 Jul 2025 13:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.252774
- Title: GPT, But Backwards: Exactly Inverting Language Model Outputs
- Title(参考訳): GPT, but backwards: 言語モデルの出力を正確に反転させる
- Authors: Adrians Skapars, Edoardo Manino, Youcheng Sun, Lucas C. Cordeiro,
- Abstract要約: 我々は、一意のグローバル最小値を持つ離散問題として、正確な入力再構成を定式化する。
入力探索空間を連続的に緩和する,効率的な勾配に基づくアルゴリズムであるSODAを導入する。
我々は,1つの偽陽性を伴わずに,次から次までのロジットから,より短いアウト・オブ・ディストリビューション入力の79.5%を完全回復することに成功した。
これは、標準のデプロイメントプラクティスが、現在、我々のメソッドの悪意ある使用に対して適切な保護を提供する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 10.759904571495845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While existing auditing techniques attempt to identify potential unwanted behaviours in large language models (LLMs), we address the complementary forensic problem of reconstructing the exact input that led to an existing LLM output - enabling post-incident analysis and potentially the detection of fake output reports. We formalize exact input reconstruction as a discrete optimisation problem with a unique global minimum and introduce SODA, an efficient gradient-based algorithm that operates on a continuous relaxation of the input search space with periodic restarts and parameter decay. Through comprehensive experiments on LLMs ranging in size from 33M to 3B parameters, we demonstrate that SODA significantly outperforms existing approaches. We succeed in fully recovering 79.5% of shorter out-of-distribution inputs from next-token logits, without a single false positive, but struggle to extract private information from the outputs of longer (15+ token) input sequences. This suggests that standard deployment practices may currently provide adequate protection against malicious use of our method. Our code is available at https://doi.org/10.5281/zenodo.15539879.
- Abstract(参考訳): 既存の監査手法は,大規模言語モデル(LLM)における潜在的望ましくない振る舞いを識別しようとするが,既存のLCM出力に繋がる正確な入力を再構築する補足的な法医学的問題に対処する。
我々は、一意な大域的最小値で離散的な最適化問題として正確な入力再構成を定式化し、周期的再起動とパラメータ崩壊を伴う入力探索空間の連続緩和で動作する効率的な勾配に基づくアルゴリズムであるSODAを導入する。
3M から 3B までの範囲の LLM に関する総合的な実験を通じて,SODA が既存手法よりも優れていることを示す。
我々は,1つの偽陽性を伴わずに,より長い(15+トークン)入力シーケンスの出力から個人情報を抽出するのに苦労しながら,次のトークンロジットから79.5%の短いアウト・オブ・ディストリビューション入力を完全回復することに成功した。
これは、標準のデプロイメントプラクティスが、現在、我々のメソッドの悪意ある使用に対して適切な保護を提供する可能性があることを示唆している。
私たちのコードはhttps://doi.org/10.5281/zenodo.15539879で利用可能です。
関連論文リスト
- PEEL the Layers and Find Yourself: Revisiting Inference-time Data Leakage for Residual Neural Networks [64.90981115460937]
本稿では、ディープニューラルネットワーク(NN)の推論時データ漏洩リスクについて検討する。
残差NNの中間出力からブロックワイズ入力特徴を効果的に回収できる新しい後方特徴逆変換法である textbfPEEL を提案する。
その結果,平均二乗誤差 (MSE) で評価した場合,PEEL は最先端の回収方法よりも桁違いに優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-08T20:11:05Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Learning on LLM Output Signatures for gray-box Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。
グレーボックス設定におけるプロセス汚染とデータ検出のためのトランスフォーマーベースのアプローチを開発する。
提案手法は,グレーボックス設定における幻覚とデータ検出における優れた性能を実現し,既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Rethinking Uncertainty Estimation in Natural Language Generation [6.3398383724486544]
大規模言語モデル(LLM)は、現実のアプリケーションにますます採用されている。
不確実性推定法は複数の出力シーケンスを生成し解析し、LCMの不確実性を決定する。
単一出力シーケンスのみを用いて得られる利点を持つG-NLLを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:51:06Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。