論文の概要: That Slepen Al the Nyght with Open Ye! Cross-era Sequence Segmentation
with Switch-memory
- arxiv url: http://arxiv.org/abs/2209.02967v1
- Date: Wed, 7 Sep 2022 07:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:25:34.282780
- Title: That Slepen Al the Nyght with Open Ye! Cross-era Sequence Segmentation
with Switch-memory
- Title(参考訳): The Slepen Al the Nyght with Open Ye!
スイッチメモリを用いたクロスエイズシーケンスセグメンテーション
- Authors: Xuemei Tang and Qi Su and Jun Wang
- Abstract要約: 中国語単語セグメンテーション(CWS)のためのクロスプラットフォーム学習フレームワーク
CrossWISEはスイッチメモリ(SM)モジュールを使用して、時代固有の言語知識を取り入れている。
異なる時代の4つのコーパスの実験により、各コーパスの性能が著しく向上することが示された。
- 参考スコア(独自算出の注目度): 8.569804490994219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of language follows the rule of gradual change. Grammar,
vocabulary, and lexical semantic shifts take place over time, resulting in a
diachronic linguistic gap. As such, a considerable amount of texts are written
in languages of different eras, which creates obstacles for natural language
processing tasks, such as word segmentation and machine translation. Although
the Chinese language has a long history, previous Chinese natural language
processing research has primarily focused on tasks within a specific era.
Therefore, we propose a cross-era learning framework for Chinese word
segmentation (CWS), CROSSWISE, which uses the Switch-memory (SM) module to
incorporate era-specific linguistic knowledge. Experiments on four corpora from
different eras show that the performance of each corpus significantly improves.
Further analyses also demonstrate that the SM can effectively integrate the
knowledge of the eras into the neural network.
- Abstract(参考訳): 言語の進化は段階的な変化の規則に従う。
文法、語彙、語彙のセマンティックシフトは時間とともに発生し、対数的言語的ギャップが生じる。
このように、かなりの量のテキストが異なる時代の言語で書かれており、単語のセグメンテーションや機械翻訳といった自然言語処理タスクの障害を生み出している。
中国語には長い歴史があるが、従来の中国語の自然言語処理の研究は主に特定の時代におけるタスクに焦点を当ててきた。
そこで本研究では,switch-memory(sm)モジュールを用いた中国語単語セグメンテーション(cws)のためのクロスエイジ学習フレームワークであるcrosswiseを提案する。
異なる時代の4つのコーパスの実験により、各コーパスの性能が著しく向上することが示された。
さらに分析した結果、SMは時代の知識をニューラルネットワークに効果的に統合できることが示された。
関連論文リスト
- UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding [31.272603877215733]
言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。
言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
論文 参考訳(メタデータ) (2024-06-24T07:27:01Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Fine-Tuned Self-Supervised Speech Representations for Language
Diarization in Multilingual Code-Switched Speech [4.39549503760707]
大規模自己教師型アーキテクチャ(WavLM)から抽出した微調整音声表現を用いた連続多言語ダイアリザを開発した。
南アフリカ語5言語(isiZulu, isiXa, Seswana, Sesotho, English)からなるコード交換コーパスを実験した。
論文 参考訳(メタデータ) (2023-12-15T09:40:41Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Robust Open-Set Spoken Language Identification and the CU MultiLang
Dataset [2.048226951354646]
オープンセット音声言語識別システムは、入力が元の言語を示さないことを検出できる。
我々は,MFCCとピッチ特徴を用いたオープンセット音声言語識別のための新しい手法を実装した。
我々は、訓練された言語で91.76%の精度を達成し、未知の言語に適応する能力を有する音声言語識別システムを提案する。
論文 参考訳(メタデータ) (2023-08-29T00:44:27Z) - An Empirical Revisiting of Linguistic Knowledge Fusion in Language
Understanding Tasks [33.765874588342285]
構文的・意味的知識を持つ言語モデルの構築は,多くの言語理解タスクにおいて改善されている。
GLUEベンチマークにおいて,解析されたグラフや木を簡単なタスクに置き換える実験的検討を行った。
このことは、利得は明示的な言語的先行によるものではなく、融合層によってもたらされるより機能的な相互作用によるものであることを明らかにしている。
論文 参考訳(メタデータ) (2022-10-24T07:47:32Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - When is BERT Multilingual? Isolating Crucial Ingredients for
Cross-lingual Transfer [15.578267998149743]
サブワード重複の欠如は,言語が単語順に異なる場合,ゼロショット転送に大きく影響することを示す。
言語間の伝達性能と単語埋め込みアライメントの間には強い相関関係がある。
その結果、言語間の単語埋め込みアライメントを明示的に改善する多言語モデルに焦点が当てられた。
論文 参考訳(メタデータ) (2021-10-27T21:25:39Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。