論文の概要: Non-Halting Queries: Exploiting Fixed Points in LLMs
- arxiv url: http://arxiv.org/abs/2410.06287v2
- Date: Mon, 24 Feb 2025 17:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:50:55.740687
- Title: Non-Halting Queries: Exploiting Fixed Points in LLMs
- Title(参考訳): 非Haltingクエリ: LLMにおける固定点の爆発
- Authors: Ghaith Hammouri, Kemal Derya, Berk Sunar,
- Abstract要約: 我々は、自動回帰モデルの固定点を利用して、決して停止しないクエリを作成する新しい脆弱性を導入します。
非半減期異常が出現する条件を厳密に分析する。
ベースアンアライメントモデルで実施された多くの実験において,非ハーフティングクエリを実演する。
- 参考スコア(独自算出の注目度): 4.091772241106195
- License:
- Abstract: We introduce a new vulnerability that exploits fixed points in autoregressive models and use it to craft queries that never halt. More precisely, for non-halting queries, the LLM never samples the end-of-string token <eos>. We rigorously analyze the conditions under which the non-halting anomaly presents itself. In particular, at temperature zero, we prove that if a repeating (cyclic) token sequence is observed at the output beyond the context size, then the LLM does not halt. We demonstrate non-halting queries in many experiments performed in base unaligned models where repeating prompts immediately lead to a non-halting cyclic behavior as predicted by the analysis. Further, we develop a simple recipe that takes the same fixed points observed in the base model and creates a prompt structure to target aligned models. We demonstrate the recipe's success in sending every major model released over the past year into a non-halting state with the same simple prompt even over higher temperatures. Further, we devise an experiment with 100 randomly selected tokens and show that the recipe to create non-halting queries succeeds with high success rates ranging from 97% for GPT-4o to 19% for Gemini Pro 1.5. These results show that the proposed adversarial recipe succeeds in bypassing alignment at one to two orders of magnitude higher rates compared to earlier reports. We also study gradient-based direct inversion using ARCA to craft new short prompts to induce the non-halting state. We inverted 10,000 random repeating 2-cycle outputs for llama-3.1-8b-instruct. Out of 10,000 three-token inverted prompts 1,512 yield non-halting queries reaching a rate of 15%. Our experiments with ARCA show that non-halting may be easily induced with as few as 3 input tokens with high probability. Overall, our experiments demonstrate that non-halting queries are prevalent and relatively easy to find.
- Abstract(参考訳): 我々は、自動回帰モデルの固定点を利用して、決して停止しないクエリを作成する新しい脆弱性を導入します。
より正確には、ノンハーフティングクエリでは、LLMはストリングの終端トークン<eos>をサンプリングしない。
非半減期異常が出現する条件を厳密に分析する。
特に、温度0では、繰り返し(循環)トークン列が文脈サイズを超える出力で観測された場合、LCMは停止しない。
提案手法は, 繰り返しプロンプトが即座に非半減な循環挙動を引き起こすような, ベースアンアライメントモデルで実施される多くの実験において, 非半減なクエリを実証する。
さらに、ベースモデルで観測された同じ固定点を抽出し、アライメントされたモデルをターゲットにしたプロンプト構造を生成する簡単なレシピを開発する。
我々は、このレシピが過去1年間にリリースされたすべての主要なモデルを、高温でも同じ単純なプロンプトで半減期のない状態に送ることに成功したことを実証する。
さらに、ランダムに選択された100個のトークンを用いて実験を行い、GPT-4oの97%からGemini Pro 1.5の19%までの高い成功率で、非半減クエリ作成のレシピが成功することを示す。
これらの結果から, 提案手法は, 先行報告よりも1~2桁高い速度でアライメントをバイパスすることに成功した。
また、ARCAを用いた勾配に基づく直接逆転法を用いて、新しいショートプロンプトを作成し、非ハーフ状態を誘導する。
我々はラマ-3.1-8b命令に対して1万個のランダム繰り返し2サイクル出力を反転させた。
1万件のうち、1,512件の非半減なクエリが15%に達する。
また,ARCAを用いた実験により,高い確率で3個の入力トークンを入力することで,非ハーフティングが容易に誘導できることが示唆された。
全体として、我々の実験は、非ハーフティングクエリが一般的で、比較的簡単に見つけることができることを示した。
関連論文リスト
- Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。
4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。
句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文 参考訳(メタデータ) (2024-12-10T22:57:57Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Consistency-based Self-supervised Learning for Temporal Anomaly
Localization [35.34342265033686]
この研究はWeakly Supervised Anomaly検出に取り組み、予測器はトレーニング中に利用可能なラベル付き異常から学習することができる。
我々は、自己教師型学習の分野における最近の進歩に触発され、同じビデオシーケンスの異なる拡張に対して、同じスコアを得るようモデルに求める。
論文 参考訳(メタデータ) (2022-08-10T10:07:34Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。