論文の概要: EENLP: Cross-lingual Eastern European NLP Index
- arxiv url: http://arxiv.org/abs/2108.02605v1
- Date: Thu, 5 Aug 2021 13:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 17:01:35.501263
- Title: EENLP: Cross-lingual Eastern European NLP Index
- Title(参考訳): EENLP:多言語東欧NLP指数
- Authors: Alexey Tikhonov, Alex Malkhasov, Andrey Manoshin, George Dima, R\'eka
Cserh\'ati, Md.Sadek Hossain Asif, Matt S\'ardi
- Abstract要約: 本報告では,EEML 2021サマースクールの一部として実施されたEENLPプロジェクトの結果を報告する。
これは、東欧の言語に対するNLPリソースの広範な指標を示しており、NLPコミュニティに役立つことを願っている。
- 参考スコア(独自算出の注目度): 0.12314765641075438
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This report presents the results of the EENLP project, done as a part of EEML
2021 summer school.
It presents a broad index of NLP resources for Eastern European languages,
which, we hope, could be helpful for the NLP community; several new
hand-crafted cross-lingual datasets focused on Eastern European languages, and
a sketch evaluation of cross-lingual transfer learning abilities of several
modern multilingual Transformer-based models.
- Abstract(参考訳): 本報告では,EEML 2021サマースクールの一部として実施されたEENLPプロジェクトの結果を報告する。
これは、東欧の言語に対するNLPリソースの広範な索引を示しており、これがNLPコミュニティに役立つことを願っている; 現代多言語トランスフォーマーモデルによる言語間変換学習能力のスケッチ評価、東欧の言語に焦点を当てた手作りのクロスランガルデータセット。
関連論文リスト
- LLMs for Extremely Low-Resource Finno-Ugric Languages [0.8192907805418583]
本稿では,Voro,Livonian,Komiに着目し,そのギャップに対処する。
データ収集からチューニング,評価に至るまで,LLM作成のサイクルのほとんどを網羅する。
本研究は,NLPの進歩によって,低リソースの言語が恩恵を受けることを保証するため,言語多様性を促進することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:48:12Z) - Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs [29.595342315049106]
我々は、欧州連合の24の公用語すべてをサポートすることで、ヨーロッパの言語多様性を受け入れるように設計された2つの多言語LLMを提示する。
モデルの開発原則、すなわちデータ構成、トークン化最適化、トレーニング方法論について詳述する。
論文 参考訳(メタデータ) (2024-09-30T16:05:38Z) - EuroLLM: Multilingual Language Models for Europe [76.89545643715368]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。
これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。
マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文 参考訳(メタデータ) (2024-09-24T16:51:36Z) - Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities [2.047424180164312]
Hebrewのような低リソース言語での大規模言語モデル(LLM)のトレーニングには、ユニークな課題がある。
我々はDictaLM2.0とDictaLM2.0-Instructを紹介した。
論文 参考訳(メタデータ) (2024-07-09T17:51:37Z) - Teaching Llama a New Language Through Cross-Lingual Knowledge Transfer [0.7499722271664147]
本研究は,エストニア語に対する言語横断学習と単言語事前学習の併用が与える影響について考察する。
高品質な英語指導からエストニア語への言語間知識の伝達を実演し、コモンセンス推論の改善をもたらす。
ベストモデルである textscLlammas は、エストニア人のための最初のオープンソースの命令フォロー型 LLM である。
論文 参考訳(メタデータ) (2024-04-05T11:52:02Z) - Language Representation Projection: Can We Transfer Factual Knowledge
across Languages in Multilingual Language Models? [48.88328580373103]
パラメータフリーの$textbfL$anguage $textbfR$epresentation $textbfP$rojection Module (LRP2)を提案する。
第1のモジュールは非英語の表現を英語のような同値に変換し、第2のモジュールは英語のような表現を対応する非英語の表現に戻す。
mLAMAデータセットによる実験結果から,LRP2は事実知識検索の精度を大幅に向上し,多種多様な非英語言語間の知識伝達を容易にすることが示された。
論文 参考訳(メタデータ) (2023-11-07T08:16:16Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Learning to translate by learning to communicate [11.43638897327485]
我々は,最新のunsupervised NMTシステムを改善するために,事前学習された多言語モデルを用いてEmergent Communication (EC)を使用する手法を定式化し,検証する。
提案手法では,多言語モデルを用いて視覚的なタスクを遂行するために,多言語世代をインセンティブとしたEC画像参照ゲームに,多言語モデルを組み込む。
本報告では,2種類のECファインチューニング(Steinert-Threlkeld et al., 2022)について述べる。
論文 参考訳(メタデータ) (2022-07-14T15:58:06Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。