論文の概要: THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture
- arxiv url: http://arxiv.org/abs/2604.11284v2
- Date: Wed, 15 Apr 2026 09:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.438071
- Title: THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture
- Title(参考訳): TheIA: 純粋なニューラルなモジュラーアーキテクチャで完全なKleene三値論理を学ぶ
- Authors: Augustus Haoyang Li,
- Abstract要約: THEIAは、完全なKleene 3値論理(K3)を、外部のシンボリック・ソルバなしでエンドツーエンドに学習するモジュラー・ニューラルアーキテクチャである。
最終論理モジュールに収束する専用エンジンを通じて4つの数学的領域を処理する。
メカニスティックな推論はモジュラリティが遅れた判断を引き起こすことを明らかにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present THEIA, a modular neural architecture that learns complete Kleene three-valued logic (K3) end-to-end without any external symbolic solver, and investigate what architectural prior enables compositional generalization under uncertainty. THEIA processes four mathematical domains (arithmetic, order, set membership, propositional logic) through dedicated engines that converge in a final logic module. Trained on a 2M-sample dataset with input space ~3.4 x 10^13, it achieves 12/12 Kleene K3 rule coverage across 5 seeds in 7.93 +/- 1.40 minutes (6.5x faster under matched settings; ~3.6x under Transformer-standard tuning, App. G). A mod-3 sequential composition experiment generalizes from 5-step training to 500-step evaluation at 99.97% +/- 0.02% -- a result requiring a structured backbone: replacing the four-engine backbone with a flat MLP collapses length generalization to chance by 50 steps at both tested capacities (0.80M and parameter-matched 2.75M), while a pre-LN TF8LTuned Transformer baseline (3,582,147 params) trained under the identical protocol reaches 99.24% at 500 steps (Appendix F). Mechanistic probing reveals that modularity induces a delayed verdict: upstream engines encode domain-specific variables without committing to the final truth value (probe accuracy <= 74% uncertainty-only ceiling), with the verdict emerging only at the Logic Engine boundary -- causally confirmed by activation patching (100% flip rate on 986 matched OR pairs, replicated across n=5 seeds; 100.0% aggregate on 4,898 pairs; generalized to AND with 100% flip rate on 4,719 pairs). The Transformer baseline reaches equivalent correctness through a qualitatively different representational trajectory (contraction then expansion), suggesting that modular and monolithic architectures implement distinct compositional strategies.
- Abstract(参考訳): 本稿では,外部シンボル解決器を使わずに,完全クリーネ三値論理(K3)をエンドツーエンドに学習するモジュール型ニューラルネットワークtheIAについて述べる。
THEIAは、最終論理モジュールに収束する専用エンジンを通して、4つの数学的領域(算術、順序、集合メンバシップ、命題論理)を処理する。
入力空間~3.4 x 10^13の2Mサンプルデータセットでトレーニングされ、7.93 +/- 1.40分(一致した設定では6.5倍、トランスフォーマー標準チューニングでは3.6倍)で5つの種にわたる12/12のK3ルールカバレッジを達成する。
mod-3シーケンシャルな合成実験は、99.97% +/- 0.02%で5段階トレーニングから500段階評価までを一般化し、構造化されたバックボーンを必要とする結果である: 4発のバックボーンをフラットなMLPで置き換えることにより、テスト容量(0.80Mとパラメータマッチング2.75M)で50段階の高速化が可能となり、LN TF8LTuned Transformerベースライン(3,582,147params)は500ステップで99.24%に達する(Appendix F)。
上流エンジンは最終的な真理値にコミットせずにドメイン固有の変数をエンコードし(精度 <= 74% 不確実性のみの天井)、評定はLogic Engine境界にのみ現れる -- アクティベーションパッチによって因果的に確認される(n=5シードで複製された986個のORペアで100%のフリップレート、4,898個の組で100.0%の集約、一般化された4,719ペアで100%のフリップレート)。
Transformer のベースラインは、定性的に異なる表現軌跡を通して等価な正当性に達し、モジュラーアーキテクチャとモノリシックアーキテクチャが異なる構成戦略を実装していることを示唆している。
関連論文リスト
- Metriplector: From Field Theory to Neural Architecture [0.25168553347063854]
本稿では,入力が抽象物理系を構成するニューラルネットワークプリミティブであるMetriplectorを提案する。
多重場は結合メチトレティックダイナミクスによって発展し、ネーターの定理から導かれる応力エネルギーテンソルTは読み出しを与える。
我々は5つの領域にまたがるMetriplectorを評価し、それぞれが、この共有プリミティブから構築されたタスク固有のアーキテクチャと、徐々にリッチな物理を用いて評価する。
論文 参考訳(メタデータ) (2026-03-31T09:40:26Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers [0.0]
言語モデルの層が連続的な信号のバイナリルーティングを行うことを示す。
特定のニューロンは93-98%の相互排他的なコンセンサスアーキテクチャを実装している。
本稿では,ディープネットワークの高機能な特徴付けをルーティング特徴付けによって補うことを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:14:57Z) - PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution [2.28438857884398]
自然言語として知識を格納するLLMエージェントは、条件数の増加に伴って急激な検索劣化に悩まされる。
本稿では,3つの密結合コンポーネントによるテスト時間適応のための統合フレームワークであるPreCEPTを紹介する。
論文 参考訳(メタデータ) (2026-03-10T13:16:45Z) - Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition [0.0]
凍結フーリエ基底からスペクトル係数を選択する微分可能なアーキテクチャである階層スペクトル合成を導入する。
我々はこのフレームワークを論理合成に適用し、ブール否定を可能にするカラムサイン変調を追加する。
論文 参考訳(メタデータ) (2026-01-20T13:26:52Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization [73.60493264901359]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。