論文の概要: RuSentEval: Linguistic Source, Encoder Force!
- arxiv url: http://arxiv.org/abs/2103.00573v2
- Date: Tue, 2 Mar 2021 11:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 05:47:57.562166
- Title: RuSentEval: Linguistic Source, Encoder Force!
- Title(参考訳): RuSentEval: 言語ソース,エンコーダフォース!
- Authors: Vladislav Mikhailov and Ekaterina Taktasheva and Elina Sigdel and
Ekaterina Artemova
- Abstract要約: ロシア向けの14のプロービングタスクの拡張セットであるRuSentEvalを紹介します。
5つの多言語トランスフォーマーにおける様々な言語特性の分布を探索するために補足的プローブ法の組み合わせを適用した。
その結果,言語知識の表現方法の共通理解に矛盾する興味深い知見が得られた。
- 参考スコア(独自算出の注目度): 1.8160945635344525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of pre-trained transformer language models has brought a great
deal of interest on how these models work, and what they learn about language.
However, prior research in the field is mainly devoted to English, and little
is known regarding other languages. To this end, we introduce RuSentEval, an
enhanced set of 14 probing tasks for Russian, including ones that have not been
explored yet. We apply a combination of complementary probing methods to
explore the distribution of various linguistic properties in five multilingual
transformers for two typologically contrasting languages -- Russian and
English. Our results provide intriguing findings that contradict the common
understanding of how linguistic knowledge is represented, and demonstrate that
some properties are learned in a similar manner despite the language
differences.
- Abstract(参考訳): 事前に訓練されたトランスフォーマー言語モデルの成功は、これらのモデルがどのように機能するか、そして言語について何を学ぶかに大きな関心をもたらしました。
しかし、この分野の先行研究は主に英語に特化しており、他の言語についてはほとんど知られていない。
この目的のために、ロシア向けの14の探索タスクの強化セットであるRuSentEvalを紹介した。
補足的探索法を組み合わせて,ロシア語と英語の2つのタイプ論的対照的な言語に対して,多言語トランスフォーマー5つの言語特性の分布を探索する。
本研究は,言語知識の表現方法に関する共通理解と矛盾する興味深い知見を示し,言語的差異にもかかわらず,いくつかの性質が類似した方法で学習されていることを示す。
関連論文リスト
- IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages? [14.77467551053299]
トランスフォーマーベースのモデルは自然言語処理の分野に革命をもたらした。
入力テキストの摂動に直面する言語特性の符号化におけるこれらのモデルはどの程度堅牢か?
本稿では,13の摂動にまたがる8つの言語特性に対して,符号化能力とロバスト性に関する類似の疑問を6つのIndic言語で検討する。
論文 参考訳(メタデータ) (2024-10-03T15:50:08Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - A Computational Model for the Assessment of Mutual Intelligibility Among
Closely Related Languages [1.5773159234875098]
密接に関連する言語は、ある言語の話者が積極的に学習することなく他の言語の話者を理解することができる言語類似性を示す。
相互の知性は程度によって異なり、典型的には精神言語実験でテストされる。
本稿では,人間による言語学習の認知過程を近似するために,線形識別学習システムを用いたコンピュータ支援手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T11:32:13Z) - Establishing Interlingua in Multilingual Language Models [0.0]
異なる言語が大きな多言語言語モデルにおいて共有空間に収束することを示す。
我々は28の多様な言語に分析を拡張し、言語間の空間が言語の言語的関連性に類似した特定の構造を示すことを発見した。
論文 参考訳(メタデータ) (2021-09-02T20:53:14Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Morph Call: Probing Morphosyntactic Content of Multilingual Transformers [2.041108289731398]
Morph Callは、異なる形態を持つ4つのインド・ヨーロッパ語(英語、フランス語、ドイツ語、ロシア語)の46の探索タスクからなるスイートである。
我々は4つの多言語トランスのモルフォシンタクティックな内容を分析するために,ニューロン,層および表現レベルのイントロスペクション技術の組み合わせを用いる。
その結果, POSタグの微調整により, 探索性能が向上し, モデル間でのモルフォシンタクティック知識の分配方法が変化することが示唆された。
論文 参考訳(メタデータ) (2021-04-26T19:53:00Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。