論文の概要: Non-Halting Queries: Exploiting Fixed Points in LLMs
- arxiv url: http://arxiv.org/abs/2410.06287v1
- Date: Tue, 8 Oct 2024 18:38:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:11:01.948656
- Title: Non-Halting Queries: Exploiting Fixed Points in LLMs
- Title(参考訳): 非Haltingクエリ: LLMにおける固定点の爆発
- Authors: Ghaith Hammouri, Kemal Derya, Berk Sunar,
- Abstract要約: 我々は、自動回帰モデルの固定点を利用して、決して停止しないクエリを作成する新しい脆弱性を導入します。
ベースモデル(アンアライメント)モデルで実施した多数の実験において,非ハーフティング異常を実演する。
勾配探索に基づく逆転法ARCAによる実験により, モデル間では非ハーフティングが一般的であり, 数個の入力トークンで容易に誘導できることが示唆された。
- 参考スコア(独自算出の注目度): 4.091772241106195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new vulnerability that exploits fixed points in autoregressive models and use it to craft queries that never halt, i.e. an LLM output that does not terminate. More precisely, for what we call non-halting queries, the LLM never samples the end-of-string token (<eos>). We rigorously analyze the conditions under which the non-halting anomaly presents itself. In particular, at temperature zero, we prove that if a repeating (cyclic) sequence of tokens is observed at the output beyond the context size, then the LLM does not halt. We demonstrate the non-halting anomaly in a number of experiments performed in base (unaligned) models where repeating tokens immediately lead to a non-halting cyclic behavior as predicted by the analysis. Further, we develop a simple recipe that takes the same fixed points observed in the base model and creates a prompt structure to target aligned models. We study the recipe behavior in bypassing alignment in a number of LLMs including GPT-4o, llama-3-8b-instruct, and gemma-2-9b-it where all models are forced into a non-halting state. Further, we demonstrate the recipe's success in sending most major models released over the past year into a non-halting state with the same simple prompt even at higher temperatures. Further, we study direct inversion based techniques to craft new short prompts to induce the non-halting state. Our experiments with the gradient search based inversion technique ARCA show that non-halting is prevalent across models and may be easily induced with a few input tokens. While its impact on the reliability of hosted systems can be mitigated by configuring a hard maximum token limit in the sampler, the non-halting anomaly still manages to break alignment. This underlines the need for further studies and stronger forms of alignment against non-halting anomalies.
- Abstract(参考訳): 自動回帰モデルにおける固定点を利用した新たな脆弱性を導入し、停止しないクエリ、すなわち終了しないLCM出力を作成する。
より正確には、私たちがノンハーフティングクエリと呼ぶものに対して、LLMはストリングの終端トークンを決してサンプリングしない(<eos>)。
非半減期異常が出現する条件を厳密に分析する。
特に、温度0では、トークンの繰り返し(循環)列が文脈サイズを超える出力で観測された場合、LCMは停止しない。
本研究は, 繰り返しトークンが直ちに非半周期的挙動をもたらすような, 基本(非整合)モデルで実施された多数の実験において, 非半周期的異常を実証するものである。
さらに、ベースモデルで観測された同じ固定点を抽出し、アライメントされたモデルをターゲットにしたプロンプト構造を生成する簡単なレシピを開発する。
GPT-4o, llama-3-8b-instruct, gemma-2-9b-itを含む多数のLCMのアライメントをバイパスする際のレシピの挙動について検討した。
さらに、過去1年間にリリースされた主要なモデルの大半を、高温でも同じ簡単なプロンプトで半減状態にするというレシピの成功を実証する。
さらに, 直接反転に基づく手法を用いて, 新たなショートプロンプトを製作し, 非ハーフ状態を誘導する手法についても検討する。
勾配探索に基づく逆転法ARCAによる実験により, モデル間では非ハーフティングが一般的であり, 数個の入力トークンで容易に誘導できることが示唆された。
ホストシステムの信頼性への影響は、サンプリング器の最大トークン制限を設定することで緩和できるが、非半減な異常はいまだにアライメントを損なうことができる。
このことは、さらなる研究の必要性と、非半減な異常に対するより強力なアライメントの必要性を浮き彫りにする。
関連論文リスト
- Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。
我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Hard Nominal Example-aware Template Mutual Matching for Industrial
Anomaly Detection [74.9262846410559]
textbfHard Nominal textbfExample-aware textbfTemplate textbfMutual textbfMatching (HETMM)
textitHETMMは、厳密なプロトタイプベースの決定境界を構築することを目的としており、ハードノミナルな例と異常を正確に区別することができる。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - Consistency-based Self-supervised Learning for Temporal Anomaly
Localization [35.34342265033686]
この研究はWeakly Supervised Anomaly検出に取り組み、予測器はトレーニング中に利用可能なラベル付き異常から学習することができる。
我々は、自己教師型学習の分野における最近の進歩に触発され、同じビデオシーケンスの異なる拡張に対して、同じスコアを得るようモデルに求める。
論文 参考訳(メタデータ) (2022-08-10T10:07:34Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - CFLOW-AD: Real-Time Unsupervised Anomaly Detection with Localization via
Conditional Normalizing Flows [0.0]
そこで本研究では,局所化による異常検出をリアルタイムに行うモデルを提案する。
CFLOW-ADは差別的に事前訓練されたエンコーダとマルチスケール生成デコーダから構成される。
MVTecデータセットを用いた実験により,CFLOW-ADは検出タスクで0.36%,AUROCで1.12%,AUPROで2.5%,従来の手法で0.36%,それぞれ優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-27T03:10:38Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。