論文の概要: Morpheme Induction for Emergent Language
- arxiv url: http://arxiv.org/abs/2510.03439v1
- Date: Fri, 03 Oct 2025 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.045844
- Title: Morpheme Induction for Emergent Language
- Title(参考訳): 創発言語のためのモーフェム誘導
- Authors: Brendon Boldt, David Mortensen,
- Abstract要約: CSARは、並列発話と意味の創発言語コーパスから形態素を誘導するアルゴリズムである。
手続き的に生成されたデータセットで検証され、関連するタスクのベースラインと比較される。
我々は,一握りの創発言語を分析し,同義語や多意味語の程度などの言語的特徴を定量化する。
- 参考スコア(独自算出の注目度): 2.1700203922407497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CSAR, an algorithm for inducing morphemes from emergent language corpora of parallel utterances and meanings. It is a greedy algorithm that (1) weights morphemes based on mutual information between forms and meanings, (2) selects the highest-weighted pair, (3) removes it from the corpus, and (4) repeats the process to induce further morphemes (i.e., Count, Select, Ablate, Repeat). The effectiveness of CSAR is first validated on procedurally generated datasets and compared against baselines for related tasks. Second, we validate CSAR's performance on human language data to show that the algorithm makes reasonable predictions in adjacent domains. Finally, we analyze a handful of emergent languages, quantifying linguistic characteristics like degree of synonymy and polysemy.
- Abstract(参考訳): 本稿では,並列発話と意味の創発的言語コーパスから形態素を誘導するアルゴリズムCSARを紹介する。
1)形態と意味の相互情報に基づいて形態素を重み付けし、(2)最上位の重み付け対を選択し、(3)コーパスから除去し、(4)さらに形態素を誘導する過程(例えば、Count, Select, Ablate, Repeat)を繰り返す。
CSARの有効性は、まず手続き的に生成されたデータセットで検証され、関連するタスクのベースラインと比較される。
第2に、CSARの性能を人間の言語データで検証し、アルゴリズムが隣接領域で妥当な予測を行うことを示す。
最後に,一握りの創発言語を分析し,同義語や多意味語の程度などの言語的特徴を定量化する。
関連論文リスト
- Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment [3.2599611548211906]
以前の研究は、形態学的に整合したトークン化アプローチが性能を向上させるかどうかに関して矛盾する結果を示した。
我々は、テルグ語(凝集)、ヒンディー語(主に凝集を伴う融合)、英語(融合)の類型的に多様な言語を選択する。
形態的アライメントとトークン化の品質という,2つの重要な要素に注目します。
論文 参考訳(メタデータ) (2025-08-11T19:23:59Z) - Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Effects of sub-word segmentation on performance of transformer language
models [0.628122931748758]
統計的セグメンテーションアルゴリズムBPEと形態素セグメンテーションのための2つの教師なしアルゴリズムを用いて訓練されたGPTモデルとBERTモデルを比較した。
形態的セグメンテーションによるトレーニングでは,1は低いパープレキシティを実現し,2はトレーニング時間でより効率的に収束し,3は下流タスクで同等あるいはより良い評価スコアを得る。
論文 参考訳(メタデータ) (2023-05-09T14:30:29Z) - Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation [32.885722714728765]
CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
論文 参考訳(メタデータ) (2022-05-25T10:44:36Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Exploiting Language Model for Efficient Linguistic Steganalysis: An
Empirical Study [23.311007481830647]
言語ステガナリシスを効果的に行うための2つの方法を提案する。
1つはRNNに基づく言語モデルの事前トレーニングであり、もう1つはシーケンスオートエンコーダの事前トレーニングである。
論文 参考訳(メタデータ) (2021-07-26T12:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。