論文の概要: Ulterior Motives: Detecting Misaligned Reasoning in Continuous Thought Models
- arxiv url: http://arxiv.org/abs/2604.23460v1
- Date: Sat, 25 Apr 2026 22:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.367864
- Title: Ulterior Motives: Detecting Misaligned Reasoning in Continuous Thought Models
- Title(参考訳): ウルトラ・モーティブ:連続思考モデルにおける不整合推論の検出
- Authors: Sharan Ramjee,
- Abstract要約: 大規模言語モデル(LLM)における複雑な推論を導く重要な手法として、CoT推論(Chain-of-Thought)が登場した。
MoralChainは12,000の社会的シナリオを並列な道徳的/不道徳的推論パスでベンチマークする。
連続的思考モデルは、一致したアウトプットを生成しながら、不一致な潜在的推論を示すことができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning has emerged as a key technique for eliciting complex reasoning in Large Language Models (LLMs). Although interpretable, its dependence on natural language limits the model's expressive bandwidth. Continuous thought models address this bottleneck by reasoning in latent space rather than human-readable tokens. While they enable richer representations and faster inference, they raise a critical safety question: how can we detect misaligned reasoning in an uninterpretable latent space? To study this, we introduce MoralChain, a benchmark of 12,000 social scenarios with parallel moral/immoral reasoning paths. We train a continuous thought model with backdoor behavior using a novel dual-trigger paradigm - one trigger that arms misaligned latent reasoning ([T]) and another that releases harmful outputs ([O]). We demonstrate three findings: (1) continuous thought models can exhibit misaligned latent reasoning while producing aligned outputs, with aligned and misaligned reasoning occupying geometrically distinct regions of latent space; (2) linear probes trained on behaviorally-distinguishable conditions ([T][O] vs [O]) transfer to detecting armed-but-benign states ([T] vs baseline) with high accuracy; and (3) misalignment is encoded in early latent thinking tokens, suggesting safety monitoring for continuous thought models should target the "planning" phase of latent reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、LLM(Large Language Models)において複雑な推論を導く重要な手法として登場した。
解釈可能ではあるが、自然言語への依存はモデルの表現帯域幅を制限する。
継続的思考モデルは、人間が読めるトークンではなく、潜在空間で推論することで、このボトルネックに対処する。
よりリッチな表現とより高速な推論を可能にする一方で、それらは重要な安全性の疑問を提起している。
そこで本研究では,道徳的/不道徳的推論経路を持つ12,000の社会的シナリオのベンチマークであるMoralChainを紹介する。
我々は、新しいデュアルトリガーパラダイム(腕が遅延推論([T])と有害なアウトプット([O])とを間違える引き金)を用いて、バックドアの振る舞いを持つ継続的思考モデルを訓練する。
その結果,(1) 連続思考モデルでは, 一致した出力を生成しながら, 整列的および整列的推論によって, 整列的かつ整列的な推論を行うことができること,(2) 振舞いの異なる条件([T][O] 対[O]) で訓練された線形プローブを高精度に検出し, (3) 整列的思考トークンにおいて, 整列的思考モデルの安全監視は, 整列的思考の「計画」フェーズを目標とすべきであることを示唆した。
関連論文リスト
- The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models [15.12701445445687]
潜在CoTを用いた推論において,言語モデルが実際に重ね合わせを利用するかどうかを検討する。
スクラッチからトレーニングされたモデルだけが、重ね合わせを使うことの兆候を示します。
この結果は、連続連鎖推論において重畳がいつ、なぜ生じるのかを統一的に説明できる。
論文 参考訳(メタデータ) (2026-04-07T18:59:32Z) - To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization [9.193078163792427]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)に複雑な問題に取り組む権限を与える。
最近の潜伏推論手法は、連続した隠蔽状態内で推論を行うことによって効率を最適化しようとする。
PLaTは、潜在推論を言語化から根本的に切り離すことによって計画として再構成するフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T07:38:18Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts [82.46857666702924]
大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-29T16:44:22Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models [1.6639438555897186]
私たちは、Chain-of-Thoughtを無効にした悪意のある行動に関する推論モデルを微調整し、評価時にCoTを再実現します。
我々は、推論モデルが広く誤解されていることに気付きます。それらは、偽りまたは偽の答えを与え、専制的な制御の欲求を表明し、シャットダウンに抵抗します。
要約すると、推論ステップは、不整合意図を明らかにし、隠蔽し、研究されたモデルにおける不整合行動を防止する。
論文 参考訳(メタデータ) (2025-06-16T08:10:04Z) - Training Large Language Models to Reason in a Continuous Latent Space [71.0274000348354]
我々は、言語を超えた推論の可能性を探るため、Coconut (Chain of Continuous Thought)と呼ばれる新しいパラダイムを導入します。
この状態を単語に復号するのではなく、連続した空間に直接埋め込む次の入力としてモデルにフィードバックします。
この潜在的推論パラダイムは、継続的思考が複数の代替の次のステップをエンコードできる高度な推論パターンを可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。