論文の概要: Language Models Can Predict Their Own Behavior
- arxiv url: http://arxiv.org/abs/2502.13329v2
- Date: Mon, 22 Sep 2025 18:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 18:29:14.449295
- Title: Language Models Can Predict Their Own Behavior
- Title(参考訳): 言語モデルは自身の振る舞いを予測できる
- Authors: Dhananjay Ashok, Jonathan May,
- Abstract要約: 言語モデル(LM)は、アライメントトレーニングに従わないなど、特定の振る舞いを示すことができます。
入力トークンの内部表現だけで訓練されたプローブは、出力シーケンス全体にわたって幅広い結果の挙動を予測することができることを示す。
プローブ上に構築された早期警報システムは、脱獄を91%削減する。
- 参考スコア(独自算出の注目度): 29.566208688211876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The text produced by language models (LMs) can exhibit specific `behaviors,' such as a failure to follow alignment training, that we hope to detect and react to during deployment. Identifying these behaviors can often only be done post facto, i.e., after the entire text of the output has been generated. We provide evidence that there are times when we can predict how an LM will behave early in computation, before even a single token is generated. We show that probes trained on the internal representation of input tokens alone can predict a wide range of eventual behaviors over the entire output sequence. Using methods from conformal prediction, we provide provable bounds on the estimation error of our probes, creating precise early warning systems for these behaviors. The conformal probes can identify instances that will trigger alignment failures (jailbreaking) and instruction-following failures, without requiring a single token to be generated. An early warning system built on the probes reduces jailbreaking by 91%. Our probes also show promise in pre-emptively estimating how confident the model will be in its response, a behavior that cannot be detected using the output text alone. Conformal probes can preemptively estimate the final prediction of an LM that uses Chain-of-Thought (CoT) prompting, hence accelerating inference. When applied to an LM that uses CoT to perform text classification, the probes drastically reduce inference costs (65% on average across 27 datasets), with negligible accuracy loss. Encouragingly, probes generalize to unseen datasets and perform better on larger models, suggesting applicability to the largest of models in real-world settings.
- Abstract(参考訳): 言語モデル(LM)が生成するテキストは、アライメントトレーニングに従わなかったり、デプロイメント中に検出し、反応させたいと願ったりといった、特定の“行動”を示すことができます。
これらの振る舞いを特定することは、しばしば事実、すなわち出力の全テキストが生成された後にのみ行うことができる。
我々は、1つのトークンが生成される前に、計算の早い段階でLMがどのように振る舞うかを予測できる証拠を提示する。
入力トークンの内部表現だけで訓練されたプローブは、出力シーケンス全体にわたって幅広い結果の挙動を予測することができることを示す。
共形予測の手法を用いて、プローブの推定誤差の証明可能な境界を提供し、これらの挙動を正確に早期に警告するシステムを作成する。
コンフォーマルプローブは、単一のトークンを生成することなく、アライメント障害(ジェイルブレーク)と命令追従障害をトリガーするインスタンスを特定できる。
プローブ上に構築された早期警報システムは、脱獄を91%削減する。
また,本調査では,出力テキストだけでは検出できない動作である,モデルが応答にどの程度の自信を持つか,事前に推定する上での確証も示している。
コンフォーマルプローブは、CoT(Chain-of-Thought)プロンプトを用いたLMの最終的な予測を事前に見積もることができるため、推論が加速する。
CoTを使ってテキスト分類を行うLMに適用した場合、プローブは推論コストを劇的に削減する(27データセットの平均65%)。
拡大して、プローブは目に見えないデータセットに一般化し、より大きなモデルでより良いパフォーマンスを実現し、現実の環境で最大のモデルに適用可能であることを示唆する。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Learning-Order Autoregressive Models with Application to Molecular Graph Generation [52.44913282062524]
本稿では,データから逐次推定される確率的順序付けを用いて高次元データを生成するARMの変種を紹介する。
提案手法は,画像およびグラフ生成において有意義な自己回帰順序を学習できることを実験的に実証した。
論文 参考訳(メタデータ) (2025-03-07T23:24:24Z) - Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - "My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models [40.867655189493924]
言語生成のオープンな性質は、大規模言語モデル(LLM)の評価を困難にしている。
1つの一般的な評価手法は、応答空間を制限するためにMulti-choice Question (MCQ) を用いる。
そこで本研究では,テキストの出力を数次元で評価する。
論文 参考訳(メタデータ) (2024-02-22T12:47:33Z) - Induced Natural Language Rationales and Interleaved Markup Tokens Enable
Extrapolation in Large Language Models [8.166629393064097]
トレーニング例として提示されるものよりも長いシーケンスの予測を行う能力は、ディープラーニングモデルにとって難しい問題である。
最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。
大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
論文 参考訳(メタデータ) (2022-08-24T11:25:27Z) - Bayes DistNet -- A Robust Neural Network for Algorithm Runtime
Distribution Predictions [1.8275108630751844]
ランダム化アルゴリズムは制約満足度問題 (CSP) やブール満足度問題 (SAT) の多くの最先端の解法で用いられている。
従来の最先端の手法は、入力インスタンスが従う固定パラメトリック分布を直接予測しようとする。
この新モデルは,低観測環境下での堅牢な予測性能と,検閲された観測処理を実現する。
論文 参考訳(メタデータ) (2020-12-14T01:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。