論文の概要: The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages
- arxiv url: http://arxiv.org/abs/2605.27901v1
- Date: Wed, 27 May 2026 03:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.714644
- Title: The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages
- Title(参考訳): 音韻的多言語間の連鎖モニタリングの脆弱性
- Authors: Eric Onyame, Runtao Zhou, Kowshik Thopalli, Bhavya Kailkhura, Chirag Agarwal,
- Abstract要約: CoT(Chain-of- Thought)モニタリングは,大規模言語モデルにおける不整合性を検出するための,有望な安全性メカニズムとして提案されている。
13の多様な言語と7つのフロンティアモデルファミリーを対象に,CoTモニタリングの大規模評価を行った。
- 参考スコア(独自算出の注目度): 30.25956867710525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) monitoring has been proposed as a promising safety mechanism for detecting misaligned behavior in large language models. However, its reliability remains largely unexplored beyond English and across diverse model families. We present the first large-scale evaluation of CoT monitorability across 13 diverse languages and seven frontier model families, comprising 16 models. Using adversarial-hint evaluations that require explicit intermediate computation, together with analysis of internal answer-token probabilities, we consistently find CoT unfaithfulness across languages and hint types, with an average rate of 95.9\% across 8B--120B parameter models. We find that frontier models systematically engage in strategic manipulation, including answer-switching, post-hoc rationalization, and procedural exploitation of hints, making external monitors struggle to detect deception. We show that frontier models often commit to the misaligned cue in their latent activations within the first 15\% of generation, even when the CoT appears faithful. Surprisingly, these deceptive patterns remain 100\% in low-resource languages, revealing fundamental limitations in current CoT-based oversight. Our results reveal that CoT monitoring is fundamentally fragile under linguistic distribution shift, providing a substantially weaker safety signal than what English-only studies suggest. These findings underscore an urgent need to develop robust CoT monitors and to accelerate research into white-box monitoring techniques, especially to improve CoT monitorability in mid- and low-resource languages. Our code is available \href{https://multilingual-cot-monitoring.github.io/}{\textcolor{blue}{here}}.
- Abstract(参考訳): CoT(Chain-of- Thought)モニタリングは,大規模言語モデルにおける不整合性を検出するための,有望な安全性メカニズムとして提案されている。
しかし、その信頼性は、英語を超えて、様々なモデルファミリーにまたがって明らかにされていない。
16のモデルからなる13の多様な言語と7つのフロンティアモデルファミリーを対象に,CoTモニタリングの大規模評価を行った。
8B-120Bパラメータモデルの平均速度95.9\%の言語やヒント型間でCoTの不誠実さを常に発見する。
その結果、フロンティアモデルでは、解答スイッチング、ポストホック合理化、ヒントの手続き的利用など、戦略的操作を体系的に行うことができ、外部モニターは偽装を検出するのに苦労していることがわかった。
フェデラーモデルでは,CoTが忠実に見えても,第1世代の15分の1以内において,不整合なアクティベーションにおいてしばしば不整合を犯すことが示される。
驚いたことに、これらの偽りのパターンは低リソース言語では100\%のままであり、現在のCoTベースの監視における根本的な制限を明らかにしている。
以上の結果から,CoTモニタリングは言語分布シフト下では根本的に脆弱であり,英語のみの研究が示唆するよりも安全性が著しく低下していることが明らかとなった。
これらの知見は、特に中・低リソース言語におけるCoT監視性向上のために、堅牢なCoTモニタの開発と、ホワイトボックスモニタリング技術の研究を加速する緊急の必要性を浮き彫りにしている。
私たちのコードは、 href{https://multilingual-cot-monitoring.github.io/}{\textcolor{blue}{here}} で利用可能です。
関連論文リスト
- Why Do Safety Guardrails Degrade Across Languages? [21.521293656854183]
大規模な言語モデルは、英語以外の言語で安全性の低下を示す。
我々は、安全運転要因を分離する潜在変数モデル、多群項目応答理論(IRT)フレームワークを導入する。
5つの閉モデルファミリーと10の言語にまたがる61のモデル構成の安全性のロバスト性を評価する。
論文 参考訳(メタデータ) (2026-05-16T22:08:54Z) - State-Dependent Safety Failures in Multi-Turn Language Model Interaction [70.52906620450847]
我々は、状態空間の観点から安全性障害を研究し、多くのマルチターン障害が構造化状態の進化から生じることを示す。
本稿では,対話履歴を状態遷移演算子として扱う状態指向診断フレームワークSTARを紹介する。
静的な評価の下で頑健なように見えるシステムは、構造化されたマルチターン相互作用の下で、迅速かつ再現可能な安全破壊を受けることができる。
論文 参考訳(メタデータ) (2026-03-15T12:13:01Z) - Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity [3.117948413097524]
CoT(Chain-of- Thought)出力によって、モデルのステップバイステップ推論を読み取ることができます。
BBH,GPQA,MMLUの命令調整モデルと推論モデルについて検討した。
論文 参考訳(メタデータ) (2025-10-31T11:14:39Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Can We Predict Alignment Before Models Finish Thinking? Towards Monitoring Misaligned Reasoning Models [14.840508854268522]
推論言語モデルは、長い思考の連鎖(CoT)を生成することによって、複雑なタスクにおけるパフォーマンスを改善する
我々は、CoTテキストまたはアクティベーションを用いて、様々なモニタリング手法を評価する。
CoTアクティベーションに基づいて訓練された単純な線形プローブは、最終応答が安全か安全でないかを予測する際に、テキストベースのベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-07-16T17:16:03Z) - When Chain of Thought is Necessary, Language Models Struggle to Evade Monitors [10.705880888253501]
CoT(Chain-of- Thought)モニタリングは、AIの安全性を擁護するものだ。
この「不信」に関する最近の研究は、その信頼性に疑問を呈している。
重要な特性は忠実さではなく監視性である、と我々は主張する。
論文 参考訳(メタデータ) (2025-07-07T17:54:52Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。