論文の概要: A Language and Its Dimensions: Intrinsic Dimensions of Language Fractal
Structures
- arxiv url: http://arxiv.org/abs/2311.10217v1
- Date: Mon, 20 Nov 2023 17:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 15:24:36.077089
- Title: A Language and Its Dimensions: Intrinsic Dimensions of Language Fractal
Structures
- Title(参考訳): 言語とその次元:言語フラクタル構造の内在次元
- Authors: Vasilii A. Gromov, Nikita S. Borodin, and Asel S. Yerbolova
- Abstract要約: 本稿は,ロシア語と英語のフラクタル構造の固有次元を推定する。
両方の言語について、すべての$n$の場合、固有の次元は非整数値で、ロシア語と英語の両方で9に近い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The present paper introduces a novel object of study - a language fractal
structure. We hypothesize that a set of embeddings of all $n$-grams of a
natural language constitutes a representative sample of this fractal set. (We
use the term Hailonakea to refer to the sum total of all language fractal
structures, over all $n$). The paper estimates intrinsic (genuine) dimensions
of language fractal structures for the Russian and English languages. To this
end, we employ methods based on (1) topological data analysis and (2) a minimum
spanning tree of a data graph for a cloud of points considered (Steele
theorem). For both languages, for all $n$, the intrinsic dimensions appear to
be non-integer values (typical for fractal sets), close to 9 for both of the
Russian and English language.
- Abstract(参考訳): 本稿では,新しい研究対象である言語フラクタル構造について紹介する。
我々は、自然言語のすべての$n$-gramの埋め込みの集合がこのフラクタル集合の代表的なサンプルを構成することを仮定する。
(n$以上すべての言語フラクタル構造の合計を表すためにhaironakeaという用語を用いる。)
この論文は、ロシア語と英語の言語フラクタル構造の内在的(元)次元を推定する。
この目的のために,(1)トポロジカルデータ解析に基づく手法と(2)考慮された点の雲に対するデータグラフの最小スパンニング木を用いる(Steele theorem)。
両方の言語について、すべての$n$の場合、内在次元は非整数値(典型的にはフラクタル集合)で、ロシア語と英語の両方で9に近い。
関連論文リスト
- The Shape of Word Embeddings: Quantifying Non-Isometry With Topological Data Analysis [10.242373477945376]
我々は、トポロジカルデータ解析から永続的ホモロジーを用いて、ラベルなし埋め込みの形状から言語ペア間の距離を測定する。
これらの違いが無作為な訓練誤りなのか、それとも言語に関する実情報なのかを識別するために、計算された距離行列を用いて81のインド・ヨーロッパ語に言語系統木を構築する。
論文 参考訳(メタデータ) (2024-03-30T23:51:25Z) - Introducing Rhetorical Parallelism Detection: A New Task with Datasets,
Metrics, and Baselines [8.405938712823565]
parallelism$は、同じ言語的特徴を持つ句の並置である。
並列性の多様さにもかかわらず、自然言語処理の分野は滅多に研究されていない。
我々は、その公式な定義を構築し、新しいラテンデータセットと適応した中国語データセットを1つ提供し、その上でのパフォーマンスを評価するためのメトリクスのファミリーを確立します。
論文 参考訳(メタデータ) (2023-11-30T15:24:57Z) - Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。
我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。
自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文 参考訳(メタデータ) (2022-05-11T17:49:25Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - RNNs can generate bounded hierarchical languages with optimal memory [113.73133308478612]
RNNは、自然言語構文の足場を反映した境界階層言語を効率的に生成できることを示す。
Dyck-($k$,$m$)は、よくネストされた括弧($k$型)と$m$バウンドされたネスト深さの言語である。
明示的な構成により,$O(m log k)$ hidden units の RNN がメモリの指数的削減に十分であることを示す。
論文 参考訳(メタデータ) (2020-10-15T04:42:29Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - On Learning Language-Invariant Representations for Universal Machine
Translation [33.40094622605891]
ユニバーサル機械翻訳は、任意の言語間の翻訳を学ぶことを目的としている。
我々は、この取り組みのある種の不確実性を一般に証明し、データの追加的な(しかし自然な)構造の存在に肯定的な結果をもたらす。
我々は、我々の理論的な洞察と意味が、普遍機械翻訳のアルゴリズム設計に寄与すると信じている。
論文 参考訳(メタデータ) (2020-08-11T04:45:33Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。