論文の概要: The Topology of Multimodal Fusion: Why Current Architectures Fail at Creative Cognition
- arxiv url: http://arxiv.org/abs/2604.04465v1
- Date: Mon, 06 Apr 2026 06:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.118385
- Title: The Topology of Multimodal Fusion: Why Current Architectures Fail at Creative Cognition
- Title(参考訳): マルチモーダル核融合のトポロジー : 現在のアーキテクチャが創造的認知を損なう理由
- Authors: Xiujiang Tan,
- Abstract要約: 本稿では、パラメトリックではなくトポロジカルな現在のマルチモーダルAIアーキテクチャの限界を特定する。
十字架の枠組みは、Xang を病理的交点に配置し、両軸に沿って 2 つの huacai (変換と切断) を実行する。
これは二重層力学を生み出す:チュアンフア(自然の出来事としての創造的変容)とフアカイ(制度化して繰り返し形にする)である。
トポロジカル正規化を用いたLIPによるUOO実装,エラー型計量を用いたANALOGYベンチマーク,アーキタイプ-TOP3層ベンチマークによるクロスシビライズ型トポロジカル同型試験を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper identifies a structural limitation in current multimodal AI architectures that is topological rather than parametric. Contrastive alignment (CLIP), cross-attention fusion (GPT-4V/Gemini), and diffusion-based generation share a common geometric prior -- modal separability -- which we term contact topology. The argument rests on three pillars with philosophy as the generative center. The philosophical pillar reinterprets Wittgenstein's saying/showing distinction as a problem rather than a conclusion: where Wittgenstein chose silence, the Chinese craft epistemology tradition responded with xiang (operative schema) -- the third state emerging when saying and showing interpenetrate. A cruciform framework (dao/qi x saying/showing) positions xiang at the intersection, executing dual huacai (transformation-and-cutting) along both axes. This generates a dual-layer dynamics: chuanghua (creative transformation as spontaneous event) and huacai (its institutionalization into repeatable form). The cognitive science pillar reinterprets DMN/ECN/SN tripartite co-activation through the pathological mirror: overlap isomorphism vs. superimposition collapse in a 2D parameter space (coupling intensity x regulatory capacity). The mathematical pillar formalizes these via fiber bundles and Yang-Mills curvature, with the cruciform structure mapped to fiber bundle language. We propose UOO implementation via Neural ODEs with topological regularization, the ANALOGY-MM benchmark with error-type-ratio metric, and the META-TOP three-tier benchmark testing cross-civilizational topological isomorphism across seven archetypes. A phased experimental roadmap with explicit termination criteria ensures clean exit if falsified.
- Abstract(参考訳): 本稿では、パラメトリックではなくトポロジカルな現在のマルチモーダルAIアーキテクチャにおける構造的制限を特定する。
コントラストアライメント(CLIP)、クロスアテンション融合(GPT-4V/Gemini)、拡散に基づく生成は、接触トポロジー(コンタクトトポロジー)と呼ばれる一般的な幾何学的事前(モード分離性)を共有している。
議論は、生成中心として哲学を持つ3つの柱の上に置かれる。
哲学の柱は、ヴィトゲンシュタインが沈黙を選んだという結論ではなく、ヴィトゲンシュタインの主張と区別を解釈している。
十字形(dao/qi x saying/showing)の枠組みは、両軸に沿って2つのフアカイ(変換と切断)を実行する。
これは二重層動力学、すなわち、チュアンフア(自然現象としての創造的変換)とフアカイ(制度化を繰り返す形にする)を生成する。
認知科学の柱は、DMN/ECN/SN三部体共活性化を2次元パラメータ空間における重複同型と重畳崩壊(結合強度x制御容量)を通して再解釈する。
数学的柱はファイバー束とヤン・ミルズ曲率によってこれらを定式化し、十字形構造はファイバー束言語にマッピングされる。
本稿では, トポロジカル正規化を用いたニューラルODEによるUOO実装, エラー型比測定を用いたANALOGY-MMベンチマーク, および, クロスシビライズ・トポロジカルアイソモーフィズムを7つのアーキストで検証したMETA-TOPベンチマークを提案する。
明確な終了基準を持つ段階的な実験ロードマップは、偽装された場合のクリーンエグジットを保証する。
関連論文リスト
- The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models [0.0]
根本原因は、幾何学的アライメント税である。
速度歪理論とMINEを用いた14の生物基盤モデルの評価を行った。
低歪み、高相互情報、大域コヒーレンスを同時に達成するモデルは存在しない。
論文 参考訳(メタデータ) (2026-04-05T15:45:49Z) - The Geometric Price of Discrete Logic: Context-driven Manifold Dynamics of Number Representations [6.414826816896125]
大規模言語モデル(LLM)は連続的な意味空間をスムーズに一般化するが、厳密な論理的推論は決定境界の形成を要求する。
我々は、タスクコンテキストが、必要な「トポロジ的歪み」を強制する非等方的力学演算子として機能すると主張している。
この幾何学的進化は、単純な写像から複雑な原始性テストまで、タスクの勾配を越えて検証する。
論文 参考訳(メタデータ) (2026-03-24T13:41:57Z) - OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning [51.33849811496781]
大規模言語モデル (LLM) は例外的な論理的推論能力を示しているが、部分微分方程式 (PDE) による連続力学としばしば競合する。
OMNIFLOWは, 領域固有のパラメータ更新を必要とせず, 基本物理法則で凍結LDMを基底として設計したマルチモーダルシンボリックアーキテクチャである。
我々は, 微視的乱流, 理論的ナビエ・ストークス, マクロ的世界天気予報のベンチマークでこれを評価した。
論文 参考訳(メタデータ) (2026-03-16T18:29:01Z) - PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning [82.55361351483005]
我々は,3次元データに対する明示的なチェーン・オブ・ソート(CoT)推論でMLLMを強化する新しいフレームワークであるPointCoTを提案する。
両ストリームのマルチモーダルアーキテクチャを活用することで,幾何学的真理とセマンティックな外観を相乗化することができる。
論文 参考訳(メタデータ) (2026-02-27T11:47:45Z) - A Geometric Taxonomy of Hallucinations in LLMs [0.2538209532048866]
大きな言語モデルにおける「幻覚」という用語は、埋め込み空間における異なる幾何学的シグネチャと異なる現象を混同している。
本稿では,不信感,信頼感,事実的誤りの3つのタイプを識別する分類法を提案する。
この貢献は、埋め込みに基づく検出の範囲を明確にした幾何学的分類法である。
論文 参考訳(メタデータ) (2026-01-26T22:07:09Z) - TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - MMFormalizer: Multimodal Autoformalization in the Wild [79.24853896733154]
MMFormalizerは、適応グラウンドを現実の数学的および物理的ドメインのエンティティと統合することにより、テキスト以外の自動形式化を拡張する。
MMFormalizerを新しいベンチマークであるPhyX-AFで評価し,MathVerse,PhyX,Synthetic Geometry,Analytic Geometryから115個のキュレートされたサンプルを作成した。
その結果, GPT-5 と Gemini-3-Pro が最も高いコンパイル精度と意味的精度が得られ, GPT-5 は物理的推論に優れていた。
論文 参考訳(メタデータ) (2026-01-06T13:42:51Z) - Curved Inference: Concern-Sensitive Geometry in Large Language Model Residual Streams [0.0]
本稿では,大言語モデルの残差ストリーム軌跡が意味的関心事の変化に応じてどのように曲げられるかを追跡する幾何学的解釈可能性フレームワークを提案する。
Gemma3-1bとLLaMA3.2-3bを5つのネイティブ空間メトリクスを用いて解析し、曲率(kappa_i)とサリエンス(S(t))に着目した。
いずれのモデルにおいても,アクティベーショントラジェクトリが確実に変更されることが示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:05:00Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。