論文の概要: Language Modeling with Reduced Densities
- arxiv url: http://arxiv.org/abs/2007.03834v4
- Date: Sat, 27 Nov 2021 15:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 12:38:06.120305
- Title: Language Modeling with Reduced Densities
- Title(参考訳): 密度を削減した言語モデル
- Authors: Tai-Danae Bradley and Yiannis Vlassopoulos
- Abstract要約: テキストのコーパスに見られるような有限アルファベットからの記号列が確率に富んだカテゴリを形成することを示す。
次に、第2の根本的な疑問に対処する。 この情報は、どのようにしてカテゴリ構造を保存する方法で保存され、モデル化されるのか?
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work originates from the observation that today's state-of-the-art
statistical language models are impressive not only for their performance, but
also - and quite crucially - because they are built entirely from correlations
in unstructured text data. The latter observation prompts a fundamental
question that lies at the heart of this paper: What mathematical structure
exists in unstructured text data? We put forth enriched category theory as a
natural answer. We show that sequences of symbols from a finite alphabet, such
as those found in a corpus of text, form a category enriched over
probabilities. We then address a second fundamental question: How can this
information be stored and modeled in a way that preserves the categorical
structure? We answer this by constructing a functor from our enriched category
of text to a particular enriched category of reduced density operators. The
latter leverages the Loewner order on positive semidefinite operators, which
can further be interpreted as a toy example of entailment.
- Abstract(参考訳): この研究は、今日の最先端の統計言語モデルは、パフォーマンスだけでなく、非構造化テキストデータの相関から完全に構築されているため、印象的なものであることに由来する。
後者の観察は、この論文の核心にある基本的な疑問を提起する: 非構造化テキストデータに数学的構造は存在するか?
私たちは自然の答えとしてカテゴリ理論を充実させた。
テキストのコーパスに見られるような有限アルファベットからの記号列が確率に富んだカテゴリを形成することを示す。
この情報は、どのようにしてカテゴリ構造を保存する方法で保存され、モデル化されるのか?
我々は、高密度なテキストのカテゴリから縮密度作用素の特定の高密度なカテゴリに関手を構築することで、これに答える。
後者はローナー順序を正の半定値作用素に利用し、エンテーメントのおもちゃの例として解釈することができる。
関連論文リスト
- Analyzing Text Representations by Measuring Task Alignment [2.198430261120653]
階層的クラスタリングに基づくタスクアライメントスコアを構築し,異なるレベルの粒度でアライメントを測定する。
テキスト分類実験は、タスクアライメントが与えられた表現の分類性能を説明することができることを示すことによって、我々の仮説を検証する。
論文 参考訳(メタデータ) (2023-05-31T11:20:48Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - A Multi-Grained Self-Interpretable Symbolic-Neural Model For
Single/Multi-Labeled Text Classification [29.075766631810595]
本稿では,テキストのクラスラベルを選挙区木から明示的に予測するシンボリック・ニューラルモデルを提案する。
構造化言語モデルが自己教師型で選挙区木を予測することを学ぶと、訓練データとして、原文と文レベルのラベルしか必要としない。
実験により,下流タスクにおける予測精度が向上できることが実証された。
論文 参考訳(メタデータ) (2023-03-06T03:25:43Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Geometry-Aware Supertagging with Heterogeneous Dynamic Convolutions [0.7868449549351486]
グラフ理論の観点から構築的なスーパータグ付けを再考する。
異種動的グラフ畳み込みに基づくフレームワークを提案する。
我々は、異なる言語にまたがる多くの分類文法データセットに対して、アプローチを検証した。
論文 参考訳(メタデータ) (2022-03-23T07:07:11Z) - An enriched category theory of language: from syntax to semantics [0.0]
テキスト上の確率分布を単位区間に富んだカテゴリとしてモデル化する。
次に,この統語的カテゴリーにおける単位区間値コプレシーブの豊富なカテゴリに渡して意味情報を求める。
論文 参考訳(メタデータ) (2021-06-15T05:40:51Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Context-theoretic Semantics for Natural Language: an Algebraic Framework [0.0]
本稿では,単語,句,文がすべてベクトルとして表現される自然言語意味論の枠組みを提案する。
単語のベクトル表現は、体上の代数の要素とみなすことができる。
論文 参考訳(メタデータ) (2020-09-22T13:31:37Z) - Don't Judge an Object by Its Context: Learning to Overcome Contextual
Bias [113.44471186752018]
既存のモデルは、認識精度を向上させるために、オブジェクトとそのコンテキスト間の共起を利用することが多い。
この研究は、学習した特徴表現の堅牢性を改善するために、そのような文脈バイアスに対処することに焦点を当てている。
論文 参考訳(メタデータ) (2020-01-09T18:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。