論文の概要: THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture
- arxiv url: http://arxiv.org/abs/2604.11284v4
- Date: Tue, 21 Apr 2026 08:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.60294
- Title: THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture
- Title(参考訳): TheIA: 純粋なニューラルなモジュラーアーキテクチャで完全なKleene三値論理を学ぶ
- Authors: Augustus Haoyang Li,
- Abstract要約: THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present THEIA, a 2.75M modular neural architecture that learns the complete Kleene three-valued logic (K3) truth table from task data without external symbolic inference or hand-encoded K3 gate primitives. Across 5 seeds, THEIA achieves all 39 K3 rules at >99% per-rule accuracy. K3 learnability is not the central finding: Transformer baselines also reach >99% on all 39 rules, and flat MLPs match THEIA on Phase-1 accuracy within 0.04pp. The central findings are two properties of the learned system. (1) Uncertainty-verdict asymmetric propagation. The network preserves Has-Unknown at every upstream boundary (80.0/91.1/90.8/99.7% across Arith/Order/Set/Logic vs. ~52% majority) while final-verdict decodability stays at or below a 73.4% U-vs-non-U oracle reference under linear and nonlinear MLP probes. Activation patching on non-absorbent T->U configurations flips 4,898/4,898 OR pairs (4,719/4,719 AND) across 5 seeds, ruling out residual shortcuts. (2) Reliability spectrum under discretized end-to-end training, on task structures decomposable along the engine boundaries. A mod-3 sequential composition task generalizes from 5- to 500-step eval at 99.96+-0.04% (5 seeds). Under identical Gumbel-softmax training, flat MLPs collapse to chance by 50 steps; a 2x2 ResMLP depth x expansion grid reaches >=99% on only 3/20 (config, seed) trials; a pre-LN Transformer reaches 99.24+-0.34%. The 500-step figure is dominated by straight-through discretization preventing 0.999^500 compounding; the architectural separator is sustaining Phase-1 accuracy under Phase-3 end-to-end Gumbel training, where flat MLPs fail. Auxiliary: under matched optimizer settings THEIA reaches 12/12 Kleene coverage 6.5x faster than a parameter-comparable 8L Transformer; the ratio narrows to ~3.6x under Transformer-standard tuning. We did not perform a THEIA-optimal sweep; ratios are specific-config, not asymptotic.
- Abstract(参考訳): 外部シンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する2.75Mのモジュール型ニューラルネットワークであるTheiaを提案する。
5つの種にまたがって、TheeIAは39のK3規則を1ルールあたり99%の精度で達成している。
K3学習性は中心的な発見ではない: トランスフォーマーベースラインは39の規則すべてで99%以上に達し、平らなMLPは0.04pp以内のフェーズ1の精度でTheeIAと一致する。
中心的な発見は学習システムの2つの特性である。
1)不確実性予測不斉伝播
このネットワークは、Arith/Order/Set/Logic vs. ~52%の多数で80.0/91.1/90.8/99.7%のアップストリーム境界でHas-Unknownを保存し、最終予測のデオーダビリティは、線形および非線形MLPプローブの下で73.4%のU-vs-非Uオラクル参照に留まっている。
非吸収性T->U構成の活性化パッチは、5つの種子に4,898/4,898 ORペア(4,719/4,719 AND)を反転させ、残りのショートカットを除去する。
2) エンジンバウンダリに沿って分解可能なタスク構造について, 離散化したエンドツーエンドトレーニング下での信頼性スペクトルについて検討した。
mod-3シーケンシャルコンポジションタスクは、99.96+-0.04%(5シード)で5段階から500段階のevalを一般化する。
2x2 ResMLP 深さ x 拡張グリッドは3/20(設定、シード)の試験で >=99%、プレLN 変圧器は 99.24+-0.34% に達する。
500段階の数値は直線的な離散化により0.999^500の合成を防ぎ、アーキテクチャ分離器は第3相と第3相のガンベル訓練において第1相の精度を維持している。
Auxiliary: マッチしたオプティマイザ設定で、TheeIAはパラメータ互換の8Lトランスフォーマーよりも12/12 Kleeneカバレッジが6.5倍速い。
TheIA-Optimal sweepは実施せず、比は具体的構成であり、漸近的ではない。
関連論文リスト
- Metriplector: From Field Theory to Neural Architecture [0.25168553347063854]
本稿では,入力が抽象物理系を構成するニューラルネットワークプリミティブであるMetriplectorを提案する。
多重場は結合メチトレティックダイナミクスによって発展し、ネーターの定理から導かれる応力エネルギーテンソルTは読み出しを与える。
我々は5つの領域にまたがるMetriplectorを評価し、それぞれが、この共有プリミティブから構築されたタスク固有のアーキテクチャと、徐々にリッチな物理を用いて評価する。
論文 参考訳(メタデータ) (2026-03-31T09:40:26Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers [0.0]
言語モデルの層が連続的な信号のバイナリルーティングを行うことを示す。
特定のニューロンは93-98%の相互排他的なコンセンサスアーキテクチャを実装している。
本稿では,ディープネットワークの高機能な特徴付けをルーティング特徴付けによって補うことを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:14:57Z) - PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution [2.28438857884398]
自然言語として知識を格納するLLMエージェントは、条件数の増加に伴って急激な検索劣化に悩まされる。
本稿では,3つの密結合コンポーネントによるテスト時間適応のための統合フレームワークであるPreCEPTを紹介する。
論文 参考訳(メタデータ) (2026-03-10T13:16:45Z) - Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition [0.0]
凍結フーリエ基底からスペクトル係数を選択する微分可能なアーキテクチャである階層スペクトル合成を導入する。
我々はこのフレームワークを論理合成に適用し、ブール否定を可能にするカラムサイン変調を追加する。
論文 参考訳(メタデータ) (2026-01-20T13:26:52Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - ParetoQ: Improving Scaling Laws in Extremely Low-bit LLM Quantization [73.60493264901359]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。