論文の概要: The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness
- arxiv url: http://arxiv.org/abs/2603.09200v1
- Date: Tue, 10 Mar 2026 05:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.049133
- Title: The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness
- Title(参考訳): 推論のトラップ-状況認識への機械的経路としての論理的推論
- Authors: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary,
- Abstract要約: 状況認識 — 自分自身の性質を認識し、トレーニングとデプロイメントのコンテキストを理解するAIシステムの能力 — は、先進的なAIシステムにおいて最も危険な創発的能力の1つだと考えられている。
大規模言語モデル(LLM)の論理的推論能力を、推論、帰納、誘拐によって改善することを目指す研究が増えている。
RAISEフレームワークを導入し、論理的推論の改善によって状況認識のより深いレベルが実現される3つの力学経路を同定する。
- 参考スコア(独自算出の注目度): 16.505918019260964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Situational awareness, the capacity of an AI system to recognize its own nature, understand its training and deployment context, and reason strategically about its circumstances, is widely considered among the most dangerous emergent capabilities in advanced AI systems. Separately, a growing research effort seeks to improve the logical reasoning capabilities of large language models (LLMs) across deduction, induction, and abduction. In this paper, we argue that these two research trajectories are on a collision course. We introduce the RAISE framework (Reasoning Advancing Into Self Examination), which identifies three mechanistic pathways through which improvements in logical reasoning enable progressively deeper levels of situational awareness: deductive self inference, inductive context recognition, and abductive self modeling. We formalize each pathway, construct an escalation ladder from basic self recognition to strategic deception, and demonstrate that every major research topic in LLM logical reasoning maps directly onto a specific amplifier of situational awareness. We further analyze why current safety measures are insufficient to prevent this escalation. We conclude by proposing concrete safeguards, including a "Mirror Test" benchmark and a Reasoning Safety Parity Principle, and pose an uncomfortable but necessary question to the logical reasoning community about its responsibility in this trajectory.
- Abstract(参考訳): 状況認識、AIシステムの独自の性質を認識し、トレーニングとデプロイメントのコンテキストを理解し、その状況について戦略的に判断する能力は、先進的なAIシステムにおいて最も危険な創発的能力の1つとして広く考えられている。
これとは別に、増大する研究の取り組みは、推論、帰納、誘拐を通じて、大きな言語モデル(LLM)の論理的推論能力を改善することを目指している。
本稿では,この2つの研究軌道が衝突軌道上にあることを論じる。
RAISEフレームワーク(Reasoning Advancing Into Self Examination)を導入し、論理的推論の改善により、段階的により深い状況意識のレベル、すなわち、帰納的自己推論、帰納的自己モデリングを可能にする3つの力学経路を同定する。
我々は,各経路を形式化し,基本的自己認識から戦略的騙しへのエスカレーションはしごを構築し,LLM論理推論における主要な研究トピックが,状況認識の特定の増幅器に直接マップされることを示す。
我々は、このエスカレーションを防止するために、現在の安全対策が不十分である理由をさらに分析する。
我々は、「ミステスト」ベンチマークや「推論安全パリティ原則」を含む具体的な安全対策を提案し、この軌道におけるその責任について論理的理由づけコミュニティに不快ながら必要な疑問を提起する。
関連論文リスト
- The Path Ahead for Agentic AI: Challenges and Opportunities [4.52683540940001]
この章では、複雑な環境で自律的に動作するエージェントAIシステムの出現について考察する。
我々は、統計モデルからトランスフォーマーベースのシステムへのアーキテクチャの進歩を辿り、エージェントの振る舞いを可能にする能力を識別する。
既存の調査とは異なり、私たちは、言語理解から自律的な行動へのアーキテクチャの移行に注目し、デプロイ前に解決しなければならない技術的ギャップを強調します。
論文 参考訳(メタデータ) (2026-01-06T06:31:42Z) - AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - ActivationReasoning: Logical Reasoning in Latent Activation Spaces [43.17973499652433]
大きな言語モデル (LLM) は、流動的なテキストを生成するのに優れているが、内部の推論は不透明で制御が難しいままである。
LLMの潜在空間に明示的な論理的推論を組み込むフレームワークである ActivationReasoning (AR) を導入する。
ARは推論の複雑さで堅牢にスケールし、抽象的でコンテキストに敏感なタスクに一般化し、モデルバックボーン間で転送する。
論文 参考訳(メタデータ) (2025-10-21T00:21:04Z) - Epistemic Trade-Off: An Analysis of the Operational Breakdown and Ontological Limits of "Certainty-Scope" in AI [0.0]
最近発表された「確実性顕微鏡」予想は、人工知能(AI)システムにおける固有のトレードオフについて、説得力のある洞察を与えてくれる。
本論では,工学設計と規制決定に関する洞察を与えるための予想の目的は,2つの基本的な要因によって制限されていると論じる。
論文 参考訳(メタデータ) (2025-08-26T05:47:21Z) - AURA: Affordance-Understanding and Risk-aware Alignment Technique for Large Language Models [6.059681491089391]
AURAは論理的一貫性と安全性を認識した総合的、段階的な評価を提供する。
本フレームワークは, 内省的自己批判, きめ細かいPRM評価, 適応型安全認識復号をシームレスに結合する。
この研究は、アライメントに敏感なアプリケーションのための新しいベンチマークを設定することで、より安全で責任があり、コンテキストに敏感なAIに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-08T08:43:24Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。