Fugu-MT 論文翻訳(概要): The cell as a token: high-dimensional geometry in language models and cell embeddings

論文の概要: The cell as a token: high-dimensional geometry in language models and cell embeddings

arxiv url: http://arxiv.org/abs/2503.20278v1
Date: Wed, 26 Mar 2025 07:05:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.084875
Title: The cell as a token: high-dimensional geometry in language models and cell embeddings
Title（参考訳）: トークンとしての細胞:言語モデルと細胞埋め込みにおける高次元幾何学
Authors: William Gilpin,
Abstract要約: シングルセルシークエンシングは、細胞内活動をコードする高次元空間に細胞をマッピングする。この視点は、言語埋め込みの構造を理解することの進歩が、単一セルデータセットを分析し視覚化するための継続的な取り組みにどのように影響するかを探求する。
参考スコア（独自算出の注目度）: 7.6146285961466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Single-cell sequencing technology maps cells to a high-dimensional space encoding their internal activity. This process mirrors parallel developments in machine learning, where large language models ingest unstructured text by converting words into discrete tokens embedded within a high-dimensional vector space. This perspective explores how advances in understanding the structure of language embeddings can inform ongoing efforts to analyze and visualize single cell datasets. We discuss how the context of tokens influences the geometry of embedding space, and the role of low-dimensional manifolds in shaping this space's robustness and interpretability. We highlight new developments in language modeling, such as interpretability probes and in-context reasoning, that can inform future efforts to construct and consolidate cell atlases.
Abstract（参考訳）: シングルセルシークエンシング技術は、細胞内活動をコードする高次元空間に細胞をマッピングする。このプロセスは機械学習における並列的な発展を反映しており、大きな言語モデルは単語を高次元ベクトル空間に埋め込まれた離散トークンに変換することによって非構造化テキストを取り込みます。この視点は、言語埋め込みの構造を理解することの進歩が、単一セルデータセットを分析し視覚化するための継続的な取り組みにどのように影響するかを探求する。トークンの文脈が埋め込み空間の幾何学や、この空間の堅牢性と解釈可能性を形成する上での低次元多様体の役割にどのように影響するかを論じる。我々は,解釈可能性プローブやコンテキスト内推論などの言語モデリングの新たな展開に注目し,今後のセルアトラスの構築と統合の取り組みについて報告する。

関連論文リスト

Uncovering spatial tissue domains and cell types in spatial omics through cross-scale profiling of cellular and genomic interactions [26.7111709393529]
本稿では,高速空間転写学解析の限界を克服するディープラーニングフレームワークであるCellScapeを提案する。 CellScapeは、組織空間における細胞間相互作用と細胞間のゲノム関係をモデル化し、包括的な表現を生成する。この技術は、空間領域のセグメンテーションを改善する生物学的に有意義なパターンを明らかにする。
論文参考訳（メタデータ） (2026-02-13T06:22:43Z)
How Do Language Models Understand Tables? A Mechanistic Analysis of Cell Location [53.68149869349268]
細胞位置の原子的タスクを分離することにより,テーブル理解の過程を解明する。モデルは、座標を解くために離散をカウントする順序機構を介して標的セルを特定することを実証する。我々は,原子配置中に同定された同一のアテンションヘッドを多重化することにより,モデルがマルチセル位置タスクに一般化できることを明らかにする。
論文参考訳（メタデータ） (2026-02-09T11:47:34Z)
GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文参考訳（メタデータ） (2025-11-12T06:48:43Z)
Embryology of a Language Model [1.1874560263468232]
本研究では, モデルの構造的発達を可視化するために, UMAPを感受性マトリックスに適用する胚学的アプローチを提案する。我々の可視化は、誘導回路のような既知の特徴の形成と、以前に未知の構造を発見したことのグラフを、明確なボディプランの出現を示す。
論文参考訳（メタデータ） (2025-08-01T05:39:41Z)
Deep learning of geometrical cell division rules [45.24832437237368]
セル形状と分割平面位置決めの関係をデータベースで検討する手法を提案する。 UNetアーキテクチャを用いて,母細胞形状から分割パターンを学習し,予測する方法を示す。
論文参考訳（メタデータ） (2025-07-30T11:41:42Z)
Information Structure in Mappings: An Approach to Learning, Representation, and Generalisation [3.8073142980733]
この論文では、空間間の写像における体系的構造を特定するための定量的手法を紹介している。マッピングに存在する構造的プリミティブと、それぞれの情報理論を識別します。また、ベクトル空間のエントロピーを推定する新しい高性能なアプローチを導入し、この分析を100万から1200億のパラメータのモデルに適用する。
論文参考訳（メタデータ） (2025-05-29T19:27:50Z)
The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文参考訳（メタデータ） (2025-05-23T13:31:22Z)
Map2Text: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化における空間座標を新しい、一貫性のある、正確に整列されたテキストコンテンツに変換する新しいタスクであるMap2Textを紹介する。これによってユーザは、これらの空間的レイアウトに埋め込まれた未発見情報を対話的に、直感的に探索し、ナビゲートすることができる。
論文参考訳（メタデータ） (2024-12-24T20:16:13Z)
Transformer-based Single-Cell Language Model: A Survey [5.228439173541588]
変換器の構造と原理について詳述する。本稿では,単一セルデータ解析のための単一セル言語モデルと大規模言語モデルについて概説する。単一セル言語モデルの課題を論じ,将来性のある研究方向性を提供する。
論文参考訳（メタデータ） (2024-07-18T06:43:12Z)
Are there identifiable structural parts in the sentence embedding whole? [1.6021932740447968]
変圧器モデルからの文の埋め込みは固定長ベクトルで多くの言語情報を符号化する。これらの埋め込みは、分離できる情報の重なり合う層で構成されているという仮説を探求する。本稿では,既知のチャンク構造を持つ文と2つの言語知能データセットからなるデータセットを用いた場合について述べる。
論文参考訳（メタデータ） (2024-06-24T11:58:33Z)
LangCell: Language-Cell Pre-training for Cell Identity Understanding [3.6518971609937068]
我々は,事前学習期間中に,単一セルデータと自然言語の統一表現であるLangCellを紹介する。以上の結果から,ゼロショットセル識別理解シナリオにおいて効果的に機能できる単一セルPLMはLangCellのみであることが示唆された。
論文参考訳（メタデータ） (2024-05-09T10:04:05Z)
Topology-Guided Multi-Class Cell Context Generation for Digital Pathology [28.43244574309888]
空間統計学とトポロジカルデータ解析の数学的ツールをいくつか紹介する。高品質なマルチクラスセルレイアウトを初めて生成する。トポロジに富んだセルレイアウトは,データ拡張やセル分類などの下流タスクの性能向上に有効であることを示す。
論文参考訳（メタデータ） (2023-04-05T07:01:34Z)
Linear Spaces of Meanings: Compositional Structures in Vision-Language Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。まず,幾何学的観点から構成構造を理解するための枠組みを提案する。次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文参考訳（メタデータ） (2023-02-28T08:11:56Z)
Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文参考訳（メタデータ） (2022-10-16T04:35:58Z)
Low-Dimensional Structure in the Space of Language Representations is Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-06-09T22:59:12Z)
The Low-Dimensional Linear Geometry of Contextualized Word Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文参考訳（メタデータ） (2021-05-15T00:58:08Z)
Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文参考訳（メタデータ） (2020-12-30T17:14:25Z)
A Comparative Study on Structural and Semantic Properties of Sentence Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文参考訳（メタデータ） (2020-09-23T15:45:32Z)
Testing the Quantitative Spacetime Hypothesis using Artificial Narrative Comprehension (II) : Establishing the Geometry of Invariant Concepts, Themes, and Namespaces [0.0]
本研究は、セマンティック時空仮説の継続的な適用に寄与し、物語テキストの教師なし分析を実証する。データストリームは、バイオインフォマティクス解析の方法で、マルチスケール干渉計によって、小さな成分に解析され、分別される。入力のフラグメントは、各スケールで新しい有効言語を定義するアルファベット階層のシンボルとして機能する。
論文参考訳（メタデータ） (2020-09-23T11:19:17Z)
APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文参考訳（メタデータ） (2020-04-30T19:05:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。