論文の概要: The cell as a token: high-dimensional geometry in language models and cell embeddings
- arxiv url: http://arxiv.org/abs/2503.20278v2
- Date: Thu, 30 Oct 2025 22:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 15:46:17.041697
- Title: The cell as a token: high-dimensional geometry in language models and cell embeddings
- Title(参考訳): トークンとしての細胞:言語モデルと細胞埋め込みにおける高次元幾何学
- Authors: William Gilpin,
- Abstract要約: シングルセルシークエンシングは、細胞内活動をコードする高次元空間に細胞をマッピングする。
最近提案された仮想細胞モデルは、この概念を拡張し、巨大な細胞アトラスの事前学習から学んだパターンに基づいて、細胞の表現を豊かにする。
本総説では,自然言語埋め込みの構造理解の進歩が,単一セルデータセット分析の現在進行中の取り組みにどう影響するかを考察する。
- 参考スコア(独自算出の注目度): 5.591723489849541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-cell sequencing technology maps cells to a high-dimensional space encoding their internal activity. Recently-proposed virtual cell models extend this concept, enriching cells' representations based on patterns learned from pretraining on vast cell atlases. This review explores how advances in understanding the structure of natural language embeddings informs ongoing efforts to analyze single-cell datasets. Both fields process unstructured data by partitioning datasets into tokens embedded within a high-dimensional vector space. We discuss how the context of tokens influences the geometry of embedding space, and how low-dimensional manifolds shape this space's robustness and interpretation. We highlight how new developments in foundation models for language, such as interpretability probes and in-context reasoning, can inform efforts to construct cell atlases and train virtual cell models.
- Abstract(参考訳): シングルセルシークエンシング技術は、細胞内活動をコードする高次元空間に細胞をマッピングする。
最近提案された仮想細胞モデルは、この概念を拡張し、巨大な細胞アトラスの事前学習から学んだパターンに基づいて、細胞の表現を豊かにする。
本総説では,自然言語埋め込みの構造理解の進歩が,単一セルデータセット分析の現在進行中の取り組みにどう影響するかを考察する。
両方のフィールドは、データセットを高次元ベクトル空間に埋め込まれたトークンに分割することで、非構造化データを処理します。
トークンの文脈が埋め込み空間の幾何学にどのように影響するか、また低次元多様体がこの空間の頑健さと解釈をいかに形成するかについて議論する。
言語基盤モデルにおける新たな発展、例えば解釈可能性プローブや文脈内推論は、細胞アトラスの構築や仮想セルモデルの訓練にどのように役立つかを明らかにする。
関連論文リスト
- Embryology of a Language Model [1.1874560263468232]
本研究では, モデルの構造的発達を可視化するために, UMAPを感受性マトリックスに適用する胚学的アプローチを提案する。
我々の可視化は、誘導回路のような既知の特徴の形成と、以前に未知の構造を発見したことのグラフを、明確なボディプランの出現を示す。
論文 参考訳(メタデータ) (2025-08-01T05:39:41Z) - Information Structure in Mappings: An Approach to Learning, Representation, and Generalisation [3.8073142980733]
この論文では、空間間の写像における体系的構造を特定するための定量的手法を紹介している。
マッピングに存在する構造的プリミティブと、それぞれの情報理論を識別します。
また、ベクトル空間のエントロピーを推定する新しい高性能なアプローチを導入し、この分析を100万から1200億のパラメータのモデルに適用する。
論文 参考訳(メタデータ) (2025-05-29T19:27:50Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Map2Text: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化における空間座標を新しい、一貫性のある、正確に整列されたテキストコンテンツに変換する新しいタスクであるMap2Textを紹介する。
これによってユーザは、これらの空間的レイアウトに埋め込まれた未発見情報を対話的に、直感的に探索し、ナビゲートすることができる。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - Are there identifiable structural parts in the sentence embedding whole? [1.6021932740447968]
変圧器モデルからの文の埋め込みは固定長ベクトルで多くの言語情報を符号化する。
これらの埋め込みは、分離できる情報の重なり合う層で構成されているという仮説を探求する。
本稿では,既知のチャンク構造を持つ文と2つの言語知能データセットからなるデータセットを用いた場合について述べる。
論文 参考訳(メタデータ) (2024-06-24T11:58:33Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。
提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文 参考訳(メタデータ) (2020-12-30T17:14:25Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Testing the Quantitative Spacetime Hypothesis using Artificial Narrative
Comprehension (II) : Establishing the Geometry of Invariant Concepts, Themes,
and Namespaces [0.0]
本研究は、セマンティック時空仮説の継続的な適用に寄与し、物語テキストの教師なし分析を実証する。
データストリームは、バイオインフォマティクス解析の方法で、マルチスケール干渉計によって、小さな成分に解析され、分別される。
入力のフラグメントは、各スケールで新しい有効言語を定義するアルファベット階層のシンボルとして機能する。
論文 参考訳(メタデータ) (2020-09-23T11:19:17Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。