論文の概要: Non-Halting Queries: Exploiting Fixed Points in LLMs
- arxiv url: http://arxiv.org/abs/2410.06287v1
- Date: Tue, 8 Oct 2024 18:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 10:11:01.948656
- Title: Non-Halting Queries: Exploiting Fixed Points in LLMs
- Title(参考訳): 非Haltingクエリ: LLMにおける固定点の爆発
- Authors: Ghaith Hammouri, Kemal Derya, Berk Sunar,
- Abstract要約: 我々は、自動回帰モデルの固定点を利用して、決して停止しないクエリを作成する新しい脆弱性を導入します。
ベースモデル(アンアライメント)モデルで実施した多数の実験において,非ハーフティング異常を実演する。
勾配探索に基づく逆転法ARCAによる実験により, モデル間では非ハーフティングが一般的であり, 数個の入力トークンで容易に誘導できることが示唆された。
- 参考スコア(独自算出の注目度): 4.091772241106195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new vulnerability that exploits fixed points in autoregressive models and use it to craft queries that never halt, i.e. an LLM output that does not terminate. More precisely, for what we call non-halting queries, the LLM never samples the end-of-string token (<eos>). We rigorously analyze the conditions under which the non-halting anomaly presents itself. In particular, at temperature zero, we prove that if a repeating (cyclic) sequence of tokens is observed at the output beyond the context size, then the LLM does not halt. We demonstrate the non-halting anomaly in a number of experiments performed in base (unaligned) models where repeating tokens immediately lead to a non-halting cyclic behavior as predicted by the analysis. Further, we develop a simple recipe that takes the same fixed points observed in the base model and creates a prompt structure to target aligned models. We study the recipe behavior in bypassing alignment in a number of LLMs including GPT-4o, llama-3-8b-instruct, and gemma-2-9b-it where all models are forced into a non-halting state. Further, we demonstrate the recipe's success in sending most major models released over the past year into a non-halting state with the same simple prompt even at higher temperatures. Further, we study direct inversion based techniques to craft new short prompts to induce the non-halting state. Our experiments with the gradient search based inversion technique ARCA show that non-halting is prevalent across models and may be easily induced with a few input tokens. While its impact on the reliability of hosted systems can be mitigated by configuring a hard maximum token limit in the sampler, the non-halting anomaly still manages to break alignment. This underlines the need for further studies and stronger forms of alignment against non-halting anomalies.
- Abstract(参考訳): 自動回帰モデルにおける固定点を利用した新たな脆弱性を導入し、停止しないクエリ、すなわち終了しないLCM出力を作成する。
より正確には、私たちがノンハーフティングクエリと呼ぶものに対して、LLMはストリングの終端トークンを決してサンプリングしない(<eos>)。
非半減期異常が出現する条件を厳密に分析する。
特に、温度0では、トークンの繰り返し(循環)列が文脈サイズを超える出力で観測された場合、LCMは停止しない。
本研究は, 繰り返しトークンが直ちに非半周期的挙動をもたらすような, 基本(非整合)モデルで実施された多数の実験において, 非半周期的異常を実証するものである。
さらに、ベースモデルで観測された同じ固定点を抽出し、アライメントされたモデルをターゲットにしたプロンプト構造を生成する簡単なレシピを開発する。
GPT-4o, llama-3-8b-instruct, gemma-2-9b-itを含む多数のLCMのアライメントをバイパスする際のレシピの挙動について検討した。
さらに、過去1年間にリリースされた主要なモデルの大半を、高温でも同じ簡単なプロンプトで半減状態にするというレシピの成功を実証する。
さらに, 直接反転に基づく手法を用いて, 新たなショートプロンプトを製作し, 非ハーフ状態を誘導する手法についても検討する。
勾配探索に基づく逆転法ARCAによる実験により, モデル間では非ハーフティングが一般的であり, 数個の入力トークンで容易に誘導できることが示唆された。
ホストシステムの信頼性への影響は、サンプリング器の最大トークン制限を設定することで緩和できるが、非半減な異常はいまだにアライメントを損なうことができる。
このことは、さらなる研究の必要性と、非半減な異常に対するより強力なアライメントの必要性を浮き彫りにする。
関連論文リスト
- R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。
我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Towards Open-Set Test-Time Adaptation Utilizing the Wisdom of Crowds in
Entropy Minimization [47.61333493671805]
テスト時間適応(TTA)メソッドは、未ラベルのターゲットドメインにソース事前学習モデルを適用するために、モデルの予測に依存する。
本稿では, 以下の重要な経験的発見から着想を得た, 単純かつ効果的なサンプル選択法を提案する。
論文 参考訳(メタデータ) (2023-08-14T01:24:18Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Hard Nominal Example-aware Template Mutual Matching for Industrial
Anomaly Detection [74.9262846410559]
textbfHard Nominal textbfExample-aware textbfTemplate textbfMutual textbfMatching (HETMM)
textitHETMMは、厳密なプロトタイプベースの決定境界を構築することを目的としており、ハードノミナルな例と異常を正確に区別することができる。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - Hardness of Samples Need to be Quantified for a Reliable Evaluation
System: Exploring Potential Opportunities with a New Task [24.6240575061124]
ベンチマーク上のモデルの評価は、サンプル硬さの程度を知らずに信頼性が低い。
我々は,0から1のスコアのベンチマークにおいて,各未注釈サンプルの割り当てを必要とするData Scoringタスクを提案する。
論文 参考訳(メタデータ) (2022-10-14T08:26:32Z) - Consistency-based Self-supervised Learning for Temporal Anomaly
Localization [35.34342265033686]
この研究はWeakly Supervised Anomaly検出に取り組み、予測器はトレーニング中に利用可能なラベル付き異常から学習することができる。
我々は、自己教師型学習の分野における最近の進歩に触発され、同じビデオシーケンスの異なる拡張に対して、同じスコアを得るようモデルに求める。
論文 参考訳(メタデータ) (2022-08-10T10:07:34Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - CFLOW-AD: Real-Time Unsupervised Anomaly Detection with Localization via
Conditional Normalizing Flows [0.0]
そこで本研究では,局所化による異常検出をリアルタイムに行うモデルを提案する。
CFLOW-ADは差別的に事前訓練されたエンコーダとマルチスケール生成デコーダから構成される。
MVTecデータセットを用いた実験により,CFLOW-ADは検出タスクで0.36%,AUROCで1.12%,AUPROで2.5%,従来の手法で0.36%,それぞれ優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-27T03:10:38Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。