論文の概要: Visual Language Hypothesis
- arxiv url: http://arxiv.org/abs/2512.23335v1
- Date: Mon, 29 Dec 2025 09:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.456721
- Title: Visual Language Hypothesis
- Title(参考訳): 視覚言語仮説
- Authors: Xiu Li,
- Abstract要約: 構造的・トポロジカルな視点から視覚表現学習を研究する。
商を近似することで、モデルアーキテクチャに構造的要求が生じることも示している。
- 参考スコア(独自算出の注目度): 14.062822951292402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study visual representation learning from a structural and topological perspective. We begin from a single hypothesis: that visual understanding presupposes a semantic language for vision, in which many perceptual observations correspond to a small number of discrete semantic states. Together with widely assumed premises on transferability and abstraction in representation learning, this hypothesis implies that the visual observation space must be organized in a fiber bundle like structure, where nuisance variation populates fibers and semantics correspond to a quotient base space. From this structure we derive two theoretical consequences. First, the semantic quotient $X/G$ is not a submanifold of $X$ and cannot be obtained through smooth deformation alone, semantic invariance requires a non-homeomorphic, discriminative target, for example, supervision via labels, cross instance identification, or multimodal alignment that supplies explicit semantic equivalence. Second, we show that approximating the quotient also places structural demands on the model architecture. Semantic abstraction requires not only an external semantic target, but a representation mechanism capable of supporting topology change: an expand-and-snap process in which the manifold is first geometrically expanded to separate structure and then collapsed to form discrete semantic regions. We emphasize that these results are interpretive rather than prescriptive: the framework provides a topological lens that aligns with empirical regularities observed in large-scale discriminative and multimodal models, and with classical principles in statistical learning theory.
- Abstract(参考訳): 構造的・トポロジカルな視点から視覚表現学習を研究する。
視覚的理解は視覚のセマンティックな言語を前提としており、多くの知覚的観察が少数の個別なセマンティックな状態に対応する。
この仮説は、表現学習における伝達可能性と抽象性に関する広く想定されている前提と相まって、視覚的な観察空間はファイバー束のような構造で組織されなければならないことを示唆している。
この構造から、2つの理論的結果が導かれる。
まず、意味的商である$X/G$は$X$のサブ多様体ではなく、滑らかな変形だけでは得られない。
第二に、商の近似もまたモデルアーキテクチャに構造的要求を与えることを示す。
セマンティック抽象は、外部の意味的対象だけでなく、トポロジーの変化をサポートすることができる表現機構を必要としている。
このフレームワークは、大規模判別モデルやマルチモーダルモデルで観察される経験的規則性と、統計学習理論における古典的原理と整合するトポロジカルレンズを提供する。
関連論文リスト
- Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。
ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。
エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文 参考訳(メタデータ) (2025-12-23T02:44:25Z) - Interpretation as Linear Transformation: A Cognitive-Geometric Model of Belief and Meaning [0.0]
純粋に代数的な制約から,信念の歪曲,モチベーションの漂流,反実的評価,相互理解の限界が生じることを示す。
この認知幾何学的視点は、人間と人工両方のシステムにおける影響の境界を明確にしていると私は主張する。
論文 参考訳(メタデータ) (2025-12-10T17:13:01Z) - Semantic Attractors and the Emergence of Meaning: Towards a Teleological Model of AGI [0.0]
このエッセイは、複雑な意味空間における意味的誘引者の概念に基づく意味的汎用知能(AGI)の理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-08-21T19:57:52Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Large Language Models as Quasi-crystals: Coherence Without Repetition in Generative Text [0.0]
エッセイは大規模言語モデル(LLM)と準結晶の類似性を提案し、局所的な制約によって生成される周期的反復を伴わないグローバルコヒーレンスを示すシステムである。
準結晶の歴史に基づいて、生成言語における代替的なコヒーレンスモード、すなわち反復や象徴的意図を伴わない制約に基づく組織を強調している。
このエッセイは、既存のメソッドを拒絶するのではなく、意味論よりも構造に根ざした解釈の新たな軸を提案することによって、大きな言語モデルに関する現在の議論を再考することを目的としている。
論文 参考訳(メタデータ) (2025-04-16T11:27:47Z) - Learning Visual-Semantic Subspace Representations [49.17165360280794]
我々は,自己教師型学習に有効な情報理論の原理を基礎として,核ノルムに基づく損失関数を導入する。
この損失の理論的特徴として、クラス性の促進に加えて、部分空間格子内のデータのスペクトル幾何学を符号化していることを示す。
論文 参考訳(メタデータ) (2024-05-25T12:51:38Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Unifying Causal Inference and Reinforcement Learning using Higher-Order
Category Theory [4.119151469153588]
本稿では、強化学習における因果関係モデルと予測状態表現モデルの構造発見のための統一的な定式化を提案する。
具体的には、単純なオブジェクトを用いて、両方の設定で構造発見をモデル化する。
論文 参考訳(メタデータ) (2022-09-13T19:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。