論文の概要: Formal concept analysis for evaluating intrinsic dimension of a natural
language
- arxiv url: http://arxiv.org/abs/2311.10862v1
- Date: Fri, 17 Nov 2023 20:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 14:01:14.838289
- Title: Formal concept analysis for evaluating intrinsic dimension of a natural
language
- Title(参考訳): 自然言語の固有次元評価のための形式的概念分析
- Authors: Sergei O. Kuznetsov, Vasilii A. Gromov, Nikita S. Borodin, and Andrei
M. Divavin
- Abstract要約: ベンガル語とロシア語における単語のセットとビッグラムのセットは別々に検討された。
これらの言語の本質的な次元は、自然言語処理において一般的なニューラルネットワークモデルで使用される次元よりも著しく小さいことが判明した。
- 参考スコア(独自算出の注目度): 10.330867429217362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some results of a computational experiment for determining the intrinsic
dimension of linguistic varieties for the Bengali and Russian languages are
presented. At the same time, both sets of words and sets of bigrams in these
languages were considered separately. The method used to solve this problem was
based on formal concept analysis algorithms. It was found that the intrinsic
dimensions of these languages are significantly less than the dimensions used
in popular neural network models in natural language processing.
- Abstract(参考訳): ベンガル語とロシア語の言語多様体の固有次元を決定するための計算実験の結果について述べる。
同時に、これらの言語における単語のセットとビッグラムのセットは別々に検討された。
この問題の解法は形式的概念解析アルゴリズムに基づいていた。
これらの言語の固有次元は、自然言語処理において一般的なニューラルネットワークモデルで使用される次元よりもかなり小さいことが判明した。
関連論文リスト
- Exploring Internal Numeracy in Language Models: A Case Study on ALBERT [12.431248361369466]
本稿では,トランスフォーマーに基づく言語モデルが内部的に数値データをどう表現するかを研究する手法を提案する。
我々は、これらのモデルが数と順序に対応するトークンを表現するために使用する学習された埋め込みを抽出する。
本研究は,テキストをモデル化するために純粋に訓練された言語モデルを用いて基礎的な数学的概念を導出し,量的推論と交差するNLPアプリケーションへの道を開くことを示唆する。
論文 参考訳(メタデータ) (2024-04-25T12:36:19Z) - Formal Aspects of Language Modeling [74.16212987886013]
大規模言語モデルは最も一般的なNLP発明の1つとなっている。
これらのノートは、ETH Z "urich course on large language model" の理論的部分の伴奏である。
論文 参考訳(メタデータ) (2023-11-07T20:21:42Z) - Exploring Linguistic Probes for Morphological Generalization [11.568042812213712]
これらのプローブを3つの形態学的に異なる言語で検証したところ、3つの主要な形態素インフレクション系が共役類に対して異なる一般化戦略と正書法および音韻的に書き起こされた入力上の特徴集合を用いているという証拠が得られた。
論文 参考訳(メタデータ) (2023-10-20T17:45:30Z) - Language Embeddings Sometimes Contain Typological Generalizations [0.0]
我々は、1295の言語における聖書翻訳の膨大な多言語データセットに基づいて、自然言語処理タスクのニューラルネットワークを訓練する。
学習された言語表現は、既存の類型データベースや、新しい量的構文的・形態的特徴セットと比較される。
いくつかの一般化は言語型学の伝統的な特徴に驚くほど近いが、ほとんどのモデルは以前の研究と同様に言語学的に意味のある一般化をしていないと結論付けている。
論文 参考訳(メタデータ) (2023-01-19T15:09:59Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Rediscovering the Slavic Continuum in Representations Emerging from
Neural Models of Spoken Language Identification [16.369477141866405]
音声信号におけるスラヴ語識別のためのニューラルモデルを提案する。
本稿では,言語関連性の客観的尺度を反映しているかどうかを調査するために,その創発的表現を分析した。
論文 参考訳(メタデータ) (2020-10-22T18:18:19Z) - Neural Polysynthetic Language Modelling [15.257624461339867]
高リソース言語では、一般的なアプローチは、共通の根の形態的固有の変種を、完全に独立した単語タイプとして扱うことである。
これは、根あたりの屈折が限られており、大多数が十分な大きさのコーパスに現れると仮定する。
4つの多義語に対する言語モデリング,機械翻訳,テキスト予測の現状について検討する。
論文 参考訳(メタデータ) (2020-05-11T22:57:04Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。