論文の概要: A Rose by Any Other Name Would Smell as Sweet: Categorical Homotopy Theory for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.10018v1
- Date: Thu, 07 Aug 2025 00:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.012146
- Title: A Rose by Any Other Name Would Smell as Sweet: Categorical Homotopy Theory for Large Language Models
- Title(参考訳): 大型言語モデルのためのカテゴリー的ホモトピー理論
- Authors: Sridhar Mahadevan,
- Abstract要約: 大規模言語モデル(LLM)は、そのような場合と同様の次世代の確率を生成するべきである。
文類似性のk-NN推定を用いてスムーズな推定を行うなど、実証的な回避策が検討されている。
文の確率をマルコフ圏の矢印で定義する LLM の分類的ホモトピーフレームワークを導入する。
- 参考スコア(独自算出の注目度): 3.0316063849624477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language is replete with superficially different statements, such as ``Charles Darwin wrote" and ``Charles Darwin is the author of", which carry the same meaning. Large language models (LLMs) should generate the same next-token probabilities in such cases, but usually do not. Empirical workarounds have been explored, such as using k-NN estimates of sentence similarity to produce smoothed estimates. In this paper, we tackle this problem more abstractly, introducing a categorical homotopy framework for LLMs. We introduce an LLM Markov category to represent probability distributions in language generated by an LLM, where the probability of a sentence, such as ``Charles Darwin wrote" is defined by an arrow in a Markov category. However, this approach runs into difficulties as language is full of equivalent rephrases, and each generates a non-isomorphic arrow in the LLM Markov category. To address this fundamental problem, we use categorical homotopy techniques to capture ``weak equivalences" in an LLM Markov category. We present a detailed overview of application of categorical homotopy to LLMs, from higher algebraic K-theory to model categories, building on powerful theoretical results developed over the past half a century.
- Abstract(参考訳): 自然言語は『Charles Darwin wrote』や『Charles Darwin is the author of』など、表面的に異なる文で補われており、同じ意味を持つ。
大きな言語モデル(LLM)は、そのような場合、同じ次の確率を生成する必要があるが、通常そうはならない。
文類似性のk-NN推定を用いてスムーズな推定を行うなど、実証的な回避策が検討されている。
本稿では,LLMの分類的ホモトピーフレームワークを導入することにより,この問題をより抽象的に解決する。
本稿では, LLM のマルコフ圏において, 「Charles Darwin が書いた」 のような文の確率分布を表すために, LLM のマルコフ圏を導入する。しかし, この手法は, 言語が同値な言い換えで満たされているため困難に陥り, それぞれが LLM のマルコフ圏の非同型矢印を生成する。この根本的な問題に対処するために, LLM のマルコフ圏における「弱同値」を捉えるために, カテゴリー的ホモトピー手法を用いる。
本稿では, 代数的K-理論からモデルカテゴリーへの LLM へのカテゴリ的ホモトピーの適用について, 過去半世紀にわたって発展してきた強力な理論的結果に基づいて概説する。
関連論文リスト
- Can adversarial attacks by large language models be attributed? [1.2289361708127877]
本研究では,Large Language Models (LLM) のクラスは,出力のみから識別できないことを示す。
近年では, 与えられた出力に対して, 可算モデル起源数の爆発を定量化している。
論文 参考訳(メタデータ) (2024-11-12T18:28:57Z) - Using General Large Language Models to Classify Mathematical Documents [0.0]
我々は,MSC 2020に基づき,arXiv.orgの事前印刷項目の分類を評価した。
サンプルの約60%において, LLMはarXivで既に報告されている一次分類マッチングを作成した。
しかし, これらの症例の詳細な検査では, LLMを推奨する分類は, 提供された分類よりも, 多くの場合において良好であった。
論文 参考訳(メタデータ) (2024-06-11T20:15:57Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Naming, Describing, and Quantifying Visual Objects in Humans and LLMs [5.59181673439492]
視覚・言語大言語モデル(VLLM)を3つのカテゴリ(名詞・属性・量化子)で評価する。
我々は、VLLMsが人間の命名選好を世代毎に捉える能力について、様々な証拠を見出している。
論文 参考訳(メタデータ) (2024-03-11T17:20:12Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Analysis of Estimating the Bayes Rule for Gaussian Mixture Models with a
Specified Missing-Data Mechanism [0.0]
半教師付き学習(SSL)アプローチは、幅広い工学と科学の分野でうまく適用されている。
本稿では、未分類観測のための欠落機構を持つ生成モデルフレームワークについて検討する。
論文 参考訳(メタデータ) (2022-10-25T06:10:45Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - A Unified Joint Maximum Mean Discrepancy for Domain Adaptation [73.44809425486767]
本論文は,最適化が容易なjmmdの統一形式を理論的に導出する。
統合JMMDから、JMMDは分類に有利な特徴ラベル依存を低下させることを示す。
本稿では,その依存を促進する新たなmmd行列を提案し,ラベル分布シフトにロバストな新しいラベルカーネルを考案する。
論文 参考訳(メタデータ) (2021-01-25T09:46:14Z) - Cautious Active Clustering [79.23797234241471]
ユークリッド空間上の未知の確率測度からサンプリングされた点の分類の問題を考える。
我々のアプローチは、未知の確率測度を、各クラスに対する条件付き確率の凸結合として考えることである。
論文 参考訳(メタデータ) (2020-08-03T23:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。