論文の概要: Text vectorization via transformer-based language models and n-gram
perplexities
- arxiv url: http://arxiv.org/abs/2307.09255v1
- Date: Tue, 18 Jul 2023 13:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:34:16.986075
- Title: Text vectorization via transformer-based language models and n-gram
perplexities
- Title(参考訳): トランスフォーマー言語モデルによるテキストベクトル化とn-gramパープレキシティ
- Authors: Mihailo \v{S}kori\'c
- Abstract要約: パープレキシティが入力全体を参照するスカラー値であることを考えると、その計算でその内部の確率分布に関する情報が失われる。
本研究は,入力中のn-gramのパープレクティビティに基づいてベクトル値を計算するための簡単なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As the probability (and thus perplexity) of a text is calculated based on the
product of the probabilities of individual tokens, it may happen that one
unlikely token significantly reduces the probability (i.e., increase the
perplexity) of some otherwise highly probable input, while potentially
representing a simple typographical error. Also, given that perplexity is a
scalar value that refers to the entire input, information about the probability
distribution within it is lost in the calculation (a relatively good text that
has one unlikely token and another text in which each token is equally likely
they can have the same perplexity value), especially for longer texts. As an
alternative to scalar perplexity this research proposes a simple algorithm used
to calculate vector values based on n-gram perplexities within the input. Such
representations consider the previously mentioned aspects, and instead of a
unique value, the relative perplexity of each text token is calculated, and
these values are combined into a single vector representing the input.
- Abstract(参考訳): 個々のトークンの確率の積に基づいてテキストの確率(そしてそれ故にパープレキシティ)が計算されるので、単純なタイポグラフィー誤差を表現しながら、他のいくつかの非常に高い入力の確率(つまり、パープレキシティを増加させる)を著しく減少させる可能性がある。
また、パープレキシティが入力全体を参照するスカラー値であることを考えると、計算において、その内部の確率分布に関する情報が失われる(不当なトークンが1つある比較的良いテキストと、各トークンが同じ可能性を持つ別のテキストが同じパープレキシティ値を持つことができる)。
この研究はスカラーパープレキシティの代替として、入力内のn-gramパープレキシティに基づいてベクトル値を計算する単純なアルゴリズムを提案する。
このような表現は前述の側面を考慮し、一意な値の代わりに各テキストトークンの相対的パープレキシティを計算し、これらの値を入力を表す単一のベクトルに結合する。
関連論文リスト
- Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。
入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文 参考訳(メタデータ) (2024-10-07T23:53:25Z) - Where is the signal in tokenization space? [31.016041295876864]
大規模言語モデル (LLM) は通常、テキストを決定論的に標準的なトークンシーケンスにエンコードするトークン化器を伴って出荷される。
本稿では,非標準トークン化について検討する。
論文 参考訳(メタデータ) (2024-08-16T05:56:10Z) - Estimation of embedding vectors in high dimensions [10.55292041492388]
我々は、いくつかの「真」だが未知の埋め込みが存在する離散データに対する単純な確率モデルを考える。
このモデルでは、埋め込みは低ランク近似メッセージパッシング(AMP)法の変種によって学習できることが示されている。
提案手法は, 合成データと実テキストデータの両方のシミュレーションにより検証した。
論文 参考訳(メタデータ) (2023-12-12T23:41:59Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Closing the Curious Case of Neural Text Degeneration [91.22954750742183]
トラニケートサンプリングの有効性を理論的に説明する。
モデルエラーの既知の源であるソフトマックスボトルネックを利用して、特定のトークンが真の確率がゼロでないことを示す。
提案手法は,低エントロピーテキスト生成におけるしきい値ベースよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-02T23:16:25Z) - Should you marginalize over possible tokenizations? [13.07994518230055]
ログライクリフのギャップは,ほとんどの場合0.5%以下であることを示す。
その結果,ほとんどの場合,ログライクリフのギャップは0.5%以下であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T16:09:01Z) - How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。
ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文 参考訳(メタデータ) (2022-10-15T04:11:56Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Gradient Origin Networks [8.952627620898074]
本稿では,エンコーダを使わずに潜在表現を素早く学習できる新しい生成モデルを提案する。
実験により,提案手法は自己エンコーダよりも高速に収束し,パラメータの半分を必要としながら再構成誤差が著しく低いことがわかった。
論文 参考訳(メタデータ) (2020-07-06T15:00:11Z) - Probabilistic embeddings for speaker diarization [13.276960253126656]
非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。
我々は,このレシピを,対角線精度行列であるxベクトルと並行して,各音声区間から抽出することによって一般化する。
これらの精度は、高品質な音声セグメントから抽出された場合、埋め込みの値が何であったかの不確かさを定量化する。
論文 参考訳(メタデータ) (2020-04-06T14:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。