論文の概要: The cell as a token: high-dimensional geometry in language models and cell embeddings
- arxiv url: http://arxiv.org/abs/2503.20278v1
- Date: Wed, 26 Mar 2025 07:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:19:40.887895
- Title: The cell as a token: high-dimensional geometry in language models and cell embeddings
- Title(参考訳): トークンとしての細胞:言語モデルと細胞埋め込みにおける高次元幾何学
- Authors: William Gilpin,
- Abstract要約: シングルセルシークエンシングは、細胞内活動をコードする高次元空間に細胞をマッピングする。
この視点は、言語埋め込みの構造を理解することの進歩が、単一セルデータセットを分析し視覚化するための継続的な取り組みにどのように影響するかを探求する。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License:
- Abstract: Single-cell sequencing technology maps cells to a high-dimensional space encoding their internal activity. This process mirrors parallel developments in machine learning, where large language models ingest unstructured text by converting words into discrete tokens embedded within a high-dimensional vector space. This perspective explores how advances in understanding the structure of language embeddings can inform ongoing efforts to analyze and visualize single cell datasets. We discuss how the context of tokens influences the geometry of embedding space, and the role of low-dimensional manifolds in shaping this space's robustness and interpretability. We highlight new developments in language modeling, such as interpretability probes and in-context reasoning, that can inform future efforts to construct and consolidate cell atlases.
- Abstract(参考訳): シングルセルシークエンシング技術は、細胞内活動をコードする高次元空間に細胞をマッピングする。
このプロセスは機械学習における並列的な発展を反映しており、大きな言語モデルは単語を高次元ベクトル空間に埋め込まれた離散トークンに変換することによって非構造化テキストを取り込みます。
この視点は、言語埋め込みの構造を理解することの進歩が、単一セルデータセットを分析し視覚化するための継続的な取り組みにどのように影響するかを探求する。
トークンの文脈が埋め込み空間の幾何学や、この空間の堅牢性と解釈可能性を形成する上での低次元多様体の役割にどのように影響するかを論じる。
我々は,解釈可能性プローブやコンテキスト内推論などの言語モデリングの新たな展開に注目し,今後のセルアトラスの構築と統合の取り組みについて報告する。
関連論文リスト
- Map2Text: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化における空間座標を新しい、一貫性のある、正確に整列されたテキストコンテンツに変換する新しいタスクであるMap2Textを紹介する。
これによってユーザは、これらの空間的レイアウトに埋め込まれた未発見情報を対話的に、直感的に探索し、ナビゲートすることができる。
論文 参考訳(メタデータ) (2024-12-24T20:16:13Z) - Are there identifiable structural parts in the sentence embedding whole? [1.6021932740447968]
変圧器モデルからの文の埋め込みは固定長ベクトルで多くの言語情報を符号化する。
これらの埋め込みは、分離できる情報の重なり合う層で構成されているという仮説を探求する。
本稿では,既知のチャンク構造を持つ文と2つの言語知能データセットからなるデータセットを用いた場合について述べる。
論文 参考訳(メタデータ) (2024-06-24T11:58:33Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。
提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文 参考訳(メタデータ) (2020-12-30T17:14:25Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Testing the Quantitative Spacetime Hypothesis using Artificial Narrative
Comprehension (II) : Establishing the Geometry of Invariant Concepts, Themes,
and Namespaces [0.0]
本研究は、セマンティック時空仮説の継続的な適用に寄与し、物語テキストの教師なし分析を実証する。
データストリームは、バイオインフォマティクス解析の方法で、マルチスケール干渉計によって、小さな成分に解析され、分別される。
入力のフラグメントは、各スケールで新しい有効言語を定義するアルファベット階層のシンボルとして機能する。
論文 参考訳(メタデータ) (2020-09-23T11:19:17Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。