論文の概要: The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
- arxiv url: http://arxiv.org/abs/2604.02029v1
- Date: Thu, 02 Apr 2026 13:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.819258
- Title: The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
- Title(参考訳): 潜在空間:基礎、進化、メカニズム、能力、展望
- Authors: Xinlei Yu, Zhangquan Chen, Yongbo He, Tianyu Fu, Cheng Yang, Chengming Xu, Yue Ma, Xiaobin Hu, Zhe Cao, Jie Xu, Guibin Zhang, Jiale Tao, Jiayi Zhang, Siyuan Ma, Kaituo Feng, Haojie Huang, Youxing Li, Ronghao Chen, Huacan Wang, Chenglin Wu, Zikun Su, Xiaogang Xu, Kelu Yao, Kun Wang, Chen Gao, Yue Liao, Ruqi Huang, Tao Jin, Cheng Tan, Jiangning Zhang, Wenqi Ren, Yanwei Fu, Yong Liu, Yu Wang, Xiangyu Yue, Yu-Gang Jiang, Shuicheng Yan,
- Abstract要約: 言語ベースモデルのネイティブベースとして,潜伏空間が急速に出現している。
この調査は、言語ベースのモデルにおける潜在空間の統一的で最新の展望を提供することを目的としている。
- 参考スコア(独自算出の注目度): 157.2023962273514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent space is rapidly emerging as a native substrate for language-based models. While modern systems are still commonly understood through explicit token-level generation, an increasing body of work shows that many critical internal processes are more naturally carried out in continuous latent space than in human-readable verbal traces. This shift is driven by the structural limitations of explicit-space computation, including linguistic redundancy, discretization bottlenecks, sequential inefficiency, and semantic loss. This survey aims to provide a unified and up-to-date landscape of latent space in language-based models. We organize the survey into five sequential perspectives: Foundation, Evolution, Mechanism, Ability, and Outlook. We begin by delineating the scope of latent space, distinguishing it from explicit or verbal space and from the latent spaces commonly studied in generative visual models. We then trace the field's evolution from early exploratory efforts to the current large-scale expansion. To organize the technical landscape, we examine existing work through the complementary lenses of mechanism and ability. From the perspective of Mechanism, we identify four major lines of development: Architecture, Representation, Computation, and Optimization. From the perspective of Ability, we show how latent space supports a broad capability spectrum spanning Reasoning, Planning, Modeling, Perception, Memory, Collaboration, and Embodiment. Beyond consolidation, we discuss the key open challenges, and outline promising directions for future research. We hope this survey serves not only as a reference for existing work, but also as a foundation for understanding latent space as a general computational and systems paradigm for next-generation intelligence.
- Abstract(参考訳): 言語ベースモデルのネイティブベースとして,潜伏空間が急速に出現している。
現代のシステムはまだ明示的なトークンレベルの生成を通じてよく理解されているが、多くの重要な内部プロセスが人間の可読な動詞のトレースよりも連続的な潜在空間でより自然に実行されることを示している。
このシフトは、言語的冗長性、離散化ボトルネック、シーケンシャルな非効率性、セマンティックな損失など、明示的な空間計算の構造的な制限によって引き起こされる。
この調査は、言語ベースのモデルにおける潜在空間の統一的で最新の展望を提供することを目的としている。
調査は、ファンデーション、進化、メカニズム、能力、展望の5つにまとめています。
まず、潜在空間の範囲を明示的空間や言語空間と区別し、生成的視覚モデルでよく研究される潜在空間と区別することから始める。
この分野の進化は、初期の探索から現在の大規模展開まで遡る。
技術的ランドスケープを整理するために、我々はメカニズムと能力の補間レンズを通して既存の作業について検討する。
メカニズムの観点から、アーキテクチャ、表現、計算、最適化の4つの主要な開発ラインを特定します。
能力の観点からは、遅延空間が推論、計画、モデリング、知覚、記憶、協調、エンボディメントにまたがる幅広い能力スペクトルをどのようにサポートするかを示す。
統合の他に、重要なオープン課題について論じ、今後の研究に向けた有望な方向性を概説する。
この調査は、既存の研究の参考としてだけでなく、次世代インテリジェンスのための一般的な計算およびシステムパラダイムとしての潜伏空間を理解する基盤としても機能することを願っている。
関連論文リスト
- SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models [12.26174714418171]
遺伝的空間推論は、コヒーレントな内部空間表現の構築と操作能力に依存している。
既存のベンチマークでは、この固有の空間認識を統計言語から分離することができない。
本研究では理論駆動型診断フレームワークであるSpatialTextを紹介する。
論文 参考訳(メタデータ) (2026-03-03T13:52:40Z) - Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - Spatial Reasoning in Multimodal Large Language Models: A Survey of Tasks, Benchmarks and Methods [11.53401872925025]
空間能力は入力形式によってのみ決定されるものではないと我々は主張する。
本調査では,認知的側面から空間知性を整理する分類法を紹介した。
トレーニングベースと推論ベースの両方にまたがる空間能力向上手法を解析する。
論文 参考訳(メタデータ) (2025-11-14T02:43:17Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。