Fugu-MT 論文翻訳(概要): Morphological Typology in BPE Subword Productivity and Language Modeling

論文の概要: Morphological Typology in BPE Subword Productivity and Language Modeling

arxiv url: http://arxiv.org/abs/2410.23656v1
Date: Thu, 31 Oct 2024 06:13:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.677102
Title: Morphological Typology in BPE Subword Productivity and Language Modeling
Title（参考訳）: BPEサブワードの生産性と言語モデルにおける形態的タイポロジー
Authors: Iñigo Parra,
Abstract要約: 合成および解析的形態構造を持つ言語に着目し,トークン化時の生産性について検討する。合成特徴を持つ言語は、BPEトークン化により、より高いサブワード規則性と生産性を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates the impact of morphological typology on tokenization and language modeling performance. We focus on languages with synthetic and analytical morphological structures and examine their productivity when tokenized using the byte-pair encoding (BPE) algorithm. We compare the performance of models trained with similar amounts of data in different languages. Our experiments reveal that languages with synthetic features exhibit greater subword regularity and productivity with BPE tokenization and achieve better results in language modeling tasks. We also observe that the typological continuum from linguistic theory is reflected in several experiments. These findings suggest a correlation between morphological typology and BPE tokenization efficiency.
Abstract（参考訳）: 本研究では,形態類型がトークン化および言語モデリング性能に及ぼす影響について検討した。合成および解析的な形態構造を持つ言語に着目し,バイトペア符号化(BPE)アルゴリズムを用いてトークン化する際の生産性について検討する。同様の量のデータを異なる言語で訓練したモデルの性能を比較する。実験の結果,BPEのトークン化により,合成特徴を持つ言語の方が単語の規則性や生産性が向上し,言語モデリングタスクにおいてよりよい結果が得られることがわかった。また,言語理論からの類型的連続体がいくつかの実験に反映されていることも確認した。以上より, 形態型とBPEトークン化効率の相関が示唆された。

関連論文リスト

Towards Human Cognition: Visual Context Guides Syntactic Priming in Fusion-Encoded Models [3.63819860423174]
構造プライミング(Structure priming)は、特定の構文構造への露出が、その後の発話で同じ構造を生成する可能性を高める認知現象である。本稿では,最初のマルチモーダル構造プライミングデータセットであるPRISMATICを紹介する。文レベルの構造的プライミング効果を特に評価するために設計された,新しい参照不要評価指標である構文保存指数(SPI)を提案する。
論文参考訳（メタデータ） (2025-02-24T21:33:27Z)
Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文参考訳（メタデータ） (2025-02-17T20:40:01Z)
Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文参考訳（メタデータ） (2024-12-19T09:21:39Z)
Analyzing The Language of Visual Tokens [48.62180485759458]
我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
論文参考訳（メタデータ） (2024-11-07T18:59:28Z)
Explicit Morphological Knowledge Improves Pre-training of Language Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文参考訳（メタデータ） (2023-11-01T17:02:49Z)
Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文参考訳（メタデータ） (2022-05-06T17:04:58Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
On the Transferability of Neural Models of Morphological Analogies [7.89271130004391]
本稿では,形態的課題に焦点をあて,形態的類似を検出するための深層学習手法を提案する。我々は、我々のフレームワークが言語間でどのように移行するかを示す実証的研究を行い、これらの言語間の興味深い類似点と相違点を強調します。これらの結果を踏まえ、多言語形態モデルの構築の可能性についても論じる。
論文参考訳（メタデータ） (2021-08-09T11:08:33Z)
Morphology Matters: A Multilingual Language Modeling Analysis [8.791030561752384]
先行研究では、言語のモデル化が難しくなるかどうかについては意見が一致していない。我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。いくつかの形態学的測定は、LSTMモデルがBPEセグメントデータで訓練されると、より高い推定値と有意に関連します。
論文参考訳（メタデータ） (2020-12-11T11:55:55Z)
Exploiting Syntactic Structure for Better Language Modeling: A Syntactic Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。 Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文参考訳（メタデータ） (2020-05-12T15:35:00Z)
Linguistic Typology Features from Text: Inferring the Sparse Features of World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。様々な言語型の特徴を確実に予測できることを示す。
論文参考訳（メタデータ） (2020-04-30T21:00:53Z)
Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models [27.91397366776451]
遅延構造(MIDI音楽またはJavaコード)上でのLSTMのトレーニングは、自然言語でのテストパフォーマンスを改善する。語彙重なりに制御される自然言語間の移動実験により,試験言語におけるゼロショット性能は,訓練言語とタイプ的類似性に強く相関していることが示された。
論文参考訳（メタデータ） (2020-04-30T06:24:03Z)
Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文参考訳（メタデータ） (2020-04-29T03:34:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。