論文の概要: Spanish Built Factual Freectianary (Spanish-BFF): the first IA-generated
free dictionary
- arxiv url: http://arxiv.org/abs/2302.12746v1
- Date: Fri, 24 Feb 2023 16:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 12:50:31.982044
- Title: Spanish Built Factual Freectianary (Spanish-BFF): the first IA-generated
free dictionary
- Title(参考訳): スペイン語構築 Factual Freectianary (スペイン語-BFF):最初のIA生成自由辞書
- Authors: \'Oscar Garc\'ia Sierra, Miguel Ortega-Mart\'in, Alfonso Ardoiz, Juan
Carlos Armenteros, Jorge \'Alvarez and Adri\'an Alonso
- Abstract要約: スペインでは、最初のIA生成辞書として「スペイン構築Factual Freectianary」(スペイン語-BFF)を導入している。
このファースト・オブ・イズ・フリー辞書はGPT-3を使用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dictionaries are one of the oldest and most used linguistic resources.
Building them is a complex task that, to the best of our knowledge, has yet to
be explored with generative Large Language Models (LLMs). We introduce the
"Spanish Built Factual Freectianary" (Spanish-BFF) as the first Spanish
IA-generated dictionary. This first-of-its-kind free dictionary uses GPT-3. We
also define future steps we aim to follow to improve this initial commitment to
the field, such as more additional languages.
- Abstract(参考訳): 辞書は最も古く、最も使われている言語資源の1つである。
それらを構築することは、私たちの知る限りでは、生成的大規模言語モデル(LLM)ではまだ検討されていない複雑なタスクです。
スペインでは、最初のIA生成辞書として「スペイン構築Factual Freectianary」(スペイン語-BFF)を導入している。
この最初のフリー辞書はGPT-3を使用している。
また、さらなる言語など、この分野へのこの最初のコミットメントを改善するために、これから続くステップを定義します。
関連論文リスト
- Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。
また、スペイン語用のタスクを1つのリポジトリにまとめました。
我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文 参考訳(メタデータ) (2023-08-06T00:16:04Z) - Assisting Language Learners: Automated Trans-Lingual Definition
Generation via Contrastive Prompt Learning [25.851611353632926]
標準定義生成タスクは、モノリンガル定義を自動的に生成する必要がある。
本稿では,他言語で定義を生成することを目的としたTLDG(Trans-Lingual Definition Generation)を提案する。
論文 参考訳(メタデータ) (2023-06-09T17:32:45Z) - Echoes from Alexandria: A Large Resource for Multilingual Book
Summarization [99.86355187131349]
アレクサンドリアからのEcho」は多言語書籍要約のための大きな資源である。
Echoesには、3つの新しいデータセットがある: i) Echo-Wiki, for multilingual book summarization, ii) Echo-XSum, for extremely-compressive multilingual book summarization, 3)) Echo-FairySum, for extractive book summarization。
論文 参考訳(メタデータ) (2023-06-07T11:01:39Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - RobBERT-2022: Updating a Dutch Language Model to Account for Evolving
Language Use [9.797319790710711]
私たちは、2019年にトレーニングされた最先端のオランダ語モデルであるRobBERTを更新しました。
まず、RobBERTのトークンライザが更新され、最新のオランダのOSCARコーパスに新しい頻繁なトークンが含まれている。
新しいモデルがRobBERTのプラグイン代替であるかどうかを評価するために,既存のトークンのコンセプトドリフトと新しいトークンのアライメントに基づく2つの追加基準を導入する。
論文 参考訳(メタデータ) (2022-11-15T14:55:53Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Automatically Creating a Large Number of New Bilingual Dictionaries [2.363388546004777]
本稿では,低リソース言語に対して,多数のバイリンガル辞書を自動生成する手法を提案する。
提案アルゴリズムは,利用可能なWordnetと機械翻訳器を用いて,ソースコード中の単語を多言語に翻訳する。
論文 参考訳(メタデータ) (2022-08-12T04:25:23Z) - Automatically constructing Wordnet synsets [2.363388546004777]
本稿では,資源に富む言語と資源に乏しい言語に対して,Wordnetシンセセットを生成する手法を提案する。
提案アルゴリズムは,既存のWordnetの構文を対象言語Tに翻訳し,翻訳候補にランク付け手法を適用してTで最良の翻訳を見つける。
論文 参考訳(メタデータ) (2022-08-08T02:02:18Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。