論文の概要: DORE: A Dataset For Portuguese Definition Generation
- arxiv url: http://arxiv.org/abs/2403.18018v2
- Date: Thu, 28 Mar 2024 10:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 10:49:40.383203
- Title: DORE: A Dataset For Portuguese Definition Generation
- Title(参考訳): DORE:ポルトガルの定義生成のためのデータセット
- Authors: Anna Beatriz Dimas Furtado, Tharindu Ranasinghe, Frédéric Blain, Ruslan Mitkov,
- Abstract要約: 定義モデリング(英: Definition modelling、DM)とは、特定の単語の辞書定義を自動的に生成するタスクである。
DMは、教師付き自然言語生成問題であると考えられている。
DMデータセットは、英語や他の高ソース言語向けにリリースされた。
ポルトガル語のDMデータセットは提供されていない。
- 参考スコア(独自算出の注目度): 11.026794038743528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Definition modelling (DM) is the task of automatically generating a dictionary definition for a specific word. Computational systems that are capable of DM can have numerous applications benefiting a wide range of audiences. As DM is considered a supervised natural language generation problem, these systems require large annotated datasets to train the machine learning (ML) models. Several DM datasets have been released for English and other high-resource languages. While Portuguese is considered a mid/high-resource language in most natural language processing tasks and is spoken by more than 200 million native speakers, there is no DM dataset available for Portuguese. In this research, we fill this gap by introducing DORE; the first dataset for Definition MOdelling for PoRtuguEse containing more than 100,000 definitions. We also evaluate several deep learning based DM models on DORE and report the results. The dataset and the findings of this paper will facilitate research and study of Portuguese in wider contexts.
- Abstract(参考訳): 定義モデリング(英: Definition modelling、DM)とは、特定の単語の辞書定義を自動的に生成するタスクである。
DMが可能な計算システムは、幅広い観客に利益をもたらす多くのアプリケーションを提供できる。
DMは教師付き自然言語生成問題であると考えられており、これらのシステムは機械学習(ML)モデルをトレーニングするために大きな注釈付きデータセットを必要とする。
いくつかのDMデータセットが英語や他の高ソース言語向けにリリースされた。
ポルトガル語は、ほとんどの自然言語処理タスクにおいて、ミッド/ハイリソース言語と見なされており、2億人以上のネイティブスピーカーによって話されているが、ポルトガル語用のDMデータセットは存在しない。
本研究では,10万以上の定義を含むPoRtuguEse用定義モデルリングの最初のデータセットであるDOREを導入することで,このギャップを埋める。
また、DOREに基づく深層学習に基づくDMモデルの評価を行い、その結果を報告する。
本論文のデータセットと知見は,より広い文脈におけるポルトガル語の研究と研究を促進する。
関連論文リスト
- M2DS: Multilingual Dataset for Multi-document Summarisation [0.5071800070021028]
MDS(Multi-document Summarisation)は、顧客レビュー、学術論文、医療および法律文書、ニュース記事を含む多様なデータセットを提供する。
しかし、これらのデータセットの英語中心の性質は、今日のグローバル化されたデジタルランドスケープにおいて、多言語データセットの顕著な空白を生み出している。
本稿では、M2DSについて、その特異な多言語的側面を強調し、我々のデータセットで評価された最先端のMDSモデルからのベースラインスコアを含む。
論文 参考訳(メタデータ) (2024-07-17T06:25:51Z) - PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese [1.2779732438508473]
我々は、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラルネットワークモデルのコレクションにコントリビュートする。
もともと英語で開発された文献の主流ベンチマークと合わせると、データセットは英語から機械翻訳され、最先端の翻訳エンジンが組み込まれていた。
その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。
論文 参考訳(メタデータ) (2024-04-08T09:22:41Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。