論文の概要: Self-tuning hyper-parameters for unsupervised cross-lingual tokenization
- arxiv url: http://arxiv.org/abs/2303.02427v1
- Date: Sat, 4 Mar 2023 14:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:36:54.054127
- Title: Self-tuning hyper-parameters for unsupervised cross-lingual tokenization
- Title(参考訳): 教師なし言語間トークン化のための自己チューニングハイパーパラメータ
- Authors: Anton Kolonin
- Abstract要約: 教師なしトークン化モデルのハイパーパラメータの自動決定のためのメタラーニング手法を実装した。
英語とロシア語の3つの指標の付加的な組み合わせは良い相関関係があることが判明した。
中国語の場合,F1スコアと圧縮係数との間に有意な相関が認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the possibility of meta-learning for the language-independent
unsupervised tokenization problem for English, Russian, and Chinese. We
implement the meta-learning approach for automatic determination of
hyper-parameters of the unsupervised tokenization model proposed in earlier
works, relying on various human-independent fitness functions such as
normalised anti-entropy, compression factor and cross-split F 1 score, as well
as additive and multiplicative composite combinations of the three metrics,
testing them against the conventional F1 tokenization score. We find a fairly
good correlation between the latter and the additive combination of the former
three metrics for English and Russian. In case of Chinese, we find a
significant correlation between the F 1 score and the compression factor. Our
results suggest the possibility of robust unsupervised tokenization of
low-resource and dead languages and allow us to think about human languages in
terms of the evolution of efficient symbolic communication codes with different
structural optimisation schemes that have evolved in different human cultures.
- Abstract(参考訳): 言語に依存しない英語・ロシア語・中国語におけるメタラーニングの可能性を検討する。
先行研究で提案されている非教師付きトークン化モデルのハイパーパラメータ自動決定のためのメタラーニング手法を実装し,正規化アンチエントロピー,圧縮係数,クロススプリットf1スコアなどの人間に依存しない適合度関数と,これら3つの指標の加法および乗法的複合組み合わせを組み合わせることにより,従来のf1トークン化スコアに対してテストを行った。
後者と、英語とロシア語の3つの指標の付加的な組み合わせとの間には、かなり良い相関関係がある。
中国語の場合,F1スコアと圧縮係数との間に有意な相関が認められた。
この結果から,低リソース言語とデッド言語の堅牢な非教師付きトークン化の可能性が示唆され,異なる人間の文化で進化した異なる構造的最適化スキームを持つ効率的な記号的通信符号の進化の観点から,人間の言語を考えることが可能となった。
関連論文リスト
- Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss [9.807885676930308]
本稿では, 単語の非対称的な寄与を取り入れた三重項損失を用いた慣用性モデルを提案する。
提案手法はSemEvalの課題に基づいて評価され,多くの指標において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T14:21:41Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Evolution of Efficient Symbolic Communication Codes [0.0]
本稿では,人間の自然言語構造を対人コミュニケーションコードの進化の産物とみなす方法について考察する。
これは、アンチエントロピー、圧縮係数、クロススプリットF1スコアといった、文化に依存しない、言語間のメトリクスを最大化することを目的としている。
論文 参考訳(メタデータ) (2023-06-04T15:33:16Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - On the Relation between Syntactic Divergence and Zero-Shot Performance [22.195133438732633]
我々は、英語から多種多様な言語にパースするUniversal Dependencies (UD) を移譲し、2つの実験を行う。
我々は、英語のソースエッジが翻訳で保存される範囲に基づいてゼロショット性能を解析する。
両実験の結果から,言語間安定性とゼロショット解析性能の強い関係が示唆された。
論文 参考訳(メタデータ) (2021-10-09T21:09:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - A Modest Pareto Optimisation Analysis of Dependency Parsers in 2021 [0.38073142980733]
異なるパラダイムの3つの主要な依存システムを、小さいが多様なサブセット言語上で評価する。
効率性に関心があるので、事前訓練された言語モデルなしでコアを評価する。
バイアス解析は、バランスの取れたデフォルト選択として現れる。
論文 参考訳(メタデータ) (2021-06-08T09:55:47Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Modeling Voting for System Combination in Machine Translation [92.09572642019145]
本稿では,機械翻訳におけるシステムの組み合わせに対する投票のモデル化手法を提案する。
提案手法は,仮説間の関係を解析できるだけでなく,エンドツーエンドのトレーニングを可能にするため,統計的手法とニューラル手法の利点を組み合わせたものである。
論文 参考訳(メタデータ) (2020-07-14T09:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。