論文の概要: Harmonic Token Projection (HTP): A Vocabulary-Free, Training-Free, Deterministic, and Reversible Embedding Methodology
- arxiv url: http://arxiv.org/abs/2511.20665v1
- Date: Mon, 10 Nov 2025 20:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.316693
- Title: Harmonic Token Projection (HTP): A Vocabulary-Free, Training-Free, Deterministic, and Reversible Embedding Methodology
- Title(参考訳): Harmonic Token Projection (HTP) : 語彙自由,訓練自由,決定論的,可逆的埋め込み法
- Authors: Tcharlies Schmitz,
- Abstract要約: Harmonic Token Projection (HTP) は、訓練、語彙、パラメータなしでテキスト埋め込みを生成するための可逆的で決定論的フレームワークである。
HTPは英語でrho = 0.68のスピアマン相関を達成し、10言語で安定した性能を維持している。
これは有意義な意味関係が決定論的幾何学から出現し、データ駆動型埋め込みの透過的で効率的な代替手段を提供することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the Harmonic Token Projection (HTP), a reversible and deterministic framework for generating text embeddings without training, vocabularies, or stochastic parameters. Unlike neural embeddings that rely on statistical co-occurrence or optimization, HTP encodes each token analytically as a harmonic trajectory derived from its Unicode integer representation, establishing a bijective and interpretable mapping between discrete symbols and continuous vector space. The harmonic formulation provides phase-coherent projections that preserve both structure and reversibility, enabling semantic similarity estimation from purely geometric alignment. Experimental evaluation on the Semantic Textual Similarity Benchmark (STS-B) and its multilingual extension shows that HTP achieves a Spearman correlation of \r{ho} = 0.68 in English, maintaining stable performance across ten languages with negligible computational cost and sub-millisecond latency per sentence pair. This demonstrates that meaningful semantic relations can emerge from deterministic geometry, offering a transparent and efficient alternative to data-driven embeddings. Keywords: Harmonic Token Projection, reversible embedding, deterministic encoding, semantic similarity, multilingual representation.
- Abstract(参考訳): 本稿では,HTP (Harmonic Token Projection) について紹介する。これは,学習や語彙,確率的パラメータを使わずにテキスト埋め込みを生成する,可逆的かつ決定論的フレームワークである。
統計的共起や最適化に依存する神経埋め込みとは異なり、HTPはそれぞれのトークンをUnicode整数表現から派生した調和軌道として解析的に符号化し、離散シンボルと連続ベクトル空間の間の単射かつ解釈可能なマッピングを確立する。
調和の定式化は、構造と可逆性の両方を保存する位相コヒーレントな射影を提供し、純粋に幾何学的アライメントから意味的類似性の推定を可能にする。
Semantic Textual similarity Benchmark (STS-B) とその多言語拡張に関する実験的評価は、HTPが英語で \r{ho} = 0.68 のスピアマン相関を達成し、無視できる計算コストと文ペアあたりのミリ秒以下のレイテンシを持つ10言語にわたる安定した性能を維持していることを示している。
これは有意義な意味関係が決定論的幾何学から出現し、データ駆動型埋め込みの透過的で効率的な代替手段を提供することを示している。
キーワード:ハーモニック・トークン・プロジェクション、可逆埋め込み、決定論的エンコーディング、意味的類似性、多言語表現。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR [30.00166986946003]
我々は、アライメントとマッチングを検出問題とみなすために、新たな洞察を得る。
目標は、高精度で意味のある対応を識別し、言語トークンの完全なカバレッジを確保することである。
分布ミスマッチと構造的非対称性を明示的に扱う不均衡な輸送ベースアライメントモデルを提案する。
論文 参考訳(メタデータ) (2025-09-06T05:58:52Z) - Conditional Unigram Tokenization with Parallel Data [1.8416014644193066]
並列データからソース言語トークンにターゲットトークン確率を条件付けすることでユニグラムトークン化を拡張する新しい手法である条件付きユニグラムトークン化を導入する。
我々は、異なるファミリーとリソースレベルにわたる4つの言語対でトークン化器を評価した。
論文 参考訳(メタデータ) (2025-07-10T14:53:59Z) - Speculative Decoding for Multi-Sample Inference [21.64693536216534]
マルチサンプル推論シナリオに適した新しい投機的復号法を提案する。
提案手法は並列生成経路の本質的なコンセンサスを利用して高品質なドラフトトークンを合成する。
論文 参考訳(メタデータ) (2025-03-07T11:15:36Z) - Probabilistic Lexical Manifold Construction in Large Language Models via Hierarchical Vector Field Interpolation [0.0]
提案手法は,単語表現が位相的整合性に従属する確率関数空間を構築する。
確率制約は、文脈関係を洗練することによって語彙コヒーレンスを高め、複数の言語分布における意味的安定性を改善する。
計算効率の評価では、表現は小さな処理オーバーヘッドをもたらすが、構造化された表現学習アプローチは実用的展開にはスケーラブルである。
論文 参考訳(メタデータ) (2025-02-14T08:47:10Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。