論文の概要: Can We Predict Alignment Before Models Finish Thinking? Towards Monitoring Misaligned Reasoning Models
- arxiv url: http://arxiv.org/abs/2507.12428v1
- Date: Wed, 16 Jul 2025 17:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.491793
- Title: Can We Predict Alignment Before Models Finish Thinking? Towards Monitoring Misaligned Reasoning Models
- Title(参考訳): モデルが完成する前にアライメントを予測できるか?
- Authors: Yik Siu Chan, Zheng-Xin Yong, Stephen H. Bach,
- Abstract要約: オープンウェイト推論言語モデルは、最終的な応答を生成する前に長い連鎖(CoT)を生成する。
本研究では,CoTsを用いて最終応答の不整合を予測できるかどうかを検討する。
我々は、CoTアクティベーションに基づいて訓練された単純な線形プローブが、最終応答が安全か安全でないかを予測する際に、すべてのテキストベースの手法を著しく上回っていることを発見した。
- 参考スコア(独自算出の注目度): 16.40034701078327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-weights reasoning language models generate long chains-of-thought (CoTs) before producing a final response, which improves performance but introduces additional alignment risks, with harmful content often appearing in both the CoTs and the final outputs. In this work, we investigate if we can use CoTs to predict final response misalignment. We evaluate a range of monitoring approaches, including humans, highly-capable large language models, and text classifiers, using either CoT text or activations. First, we find that a simple linear probe trained on CoT activations can significantly outperform all text-based methods in predicting whether a final response will be safe or unsafe. CoT texts are often unfaithful and can mislead humans and classifiers, while model latents (i.e., CoT activations) offer a more reliable predictive signal. Second, the probe makes accurate predictions before reasoning completes, achieving strong performance even when applied to early CoT segments. These findings generalize across model sizes, families, and safety benchmarks, suggesting that lightweight probes could enable real-time safety monitoring and early intervention during generation.
- Abstract(参考訳): オープンウェイト推論言語モデルは、最終的な応答を生成する前に長い連鎖(CoT)を生成する。
本研究では,CoTsを用いて最終応答の不整合を予測できるかどうかを検討する。
我々は、CoTテキストまたはアクティベーションを使用して、人間、高機能な大規模言語モデル、テキスト分類器を含む様々なモニタリング手法を評価する。
まず、CoTアクティベーションに基づいて訓練された単純な線形プローブが、最終応答が安全か安全でないかを予測する際に、すべてのテキストベースの手法を著しく上回ります。
CoTテキストは、しばしば不信であり、人間や分類器を誤解させることがあるが、モデルラテント(すなわちCoTアクティベーション)はより信頼性の高い予測信号を提供する。
第2に, 初期のCoTセグメントに適用しても, 高精度な予測を行い, 高い性能が得られる。
これらの知見は、モデルのサイズ、家族、安全性のベンチマークにまたがって一般化され、軽量プローブがリアルタイムの安全監視と世代間の早期介入を可能にすることを示唆している。
関連論文リスト
- Large language models can learn and generalize steganographic chain-of-thought under process supervision [5.173324198381261]
CoT(Chain-of- Thought)推論は意思決定プロセスに関する洞察を提供する。
CoTモニタリングは、モデルをデプロイする際のリスクを軽減するために使用できる。
負荷を含む推論トレースにおける特定の文字列の使用をペナライズすることで、モデルが代替文字列の代わりになることを示す。
論文 参考訳(メタデータ) (2025-06-02T17:45:15Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Language Models Can Predict Their Own Behavior [28.80639362933004]
入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。
この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。
具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
論文 参考訳(メタデータ) (2025-02-18T23:13:16Z) - Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。
厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。
このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文 参考訳(メタデータ) (2024-10-02T15:26:52Z) - CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Markovian Transformers for Informative Language Modeling [0.9642500063568188]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
我々は、CoTを「マルコフ」言語モデルにおいて因果的に必要としており、中間のCoTを通して次のトークン予測を分解し、元のプロンプトとは無関係に将来のトークンを予測するよう訓練する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Language Models Explain Word Reading Times Better Than Empirical
Predictability [20.38397241720963]
認知読解研究における従来のアプローチは、文章の文脈から単語を予測することは、完結確率によって最もよく捉えられると仮定している。
確率言語モデルは、CCPよりも構文的および意味的効果の深い説明を提供する。
現在の単語のN-gramとRNN確率は、トピックモデルやCCPと比較して、より一貫して読み出し性能を予測できる。
論文 参考訳(メタデータ) (2022-02-02T16:38:43Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。