論文の概要: Automatic Extraction of the Romanian Academic Word List: Data and
Methods
- arxiv url: http://arxiv.org/abs/2307.16045v1
- Date: Sat, 29 Jul 2023 18:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:55:05.402585
- Title: Automatic Extraction of the Romanian Academic Word List: Data and
Methods
- Title(参考訳): ルーマニア語学術用語リストの自動抽出:データと方法
- Authors: Ana-Maria Bucur, Andreea Dinc\u{a}, M\u{a}d\u{a}lina Chitez and Roxana
Rogobete
- Abstract要約: 本稿では,ルーマニアの学術用語リスト(Ro-AWL)の自動抽出に使用される方法論とデータについて述べる。
学術用語リストはL2とL1の教育文脈で有用である。
Ro-AWLは、コーパスと計算言語学の手法とL2学術書記法を組み合わせることによって生成される。
- 参考スコア(独自算出の注目度): 5.926203312586109
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents the methodology and data used for the automatic
extraction of the Romanian Academic Word List (Ro-AWL). Academic Word Lists are
useful in both L2 and L1 teaching contexts. For the Romanian language, no such
resource exists so far. Ro-AWL has been generated by combining methods from
corpus and computational linguistics with L2 academic writing approaches. We
use two types of data: (a) existing data, such as the Romanian Frequency List
based on the ROMBAC corpus, and (b) self-compiled data, such as the expert
academic writing corpus EXPRES. For constructing the academic word list, we
follow the methodology for building the Academic Vocabulary List for the
English language. The distribution of Ro-AWL features (general distribution,
POS distribution) into four disciplinary datasets is in line with previous
research. Ro-AWL is freely available and can be used for teaching, research and
NLP applications.
- Abstract(参考訳): 本稿では,ルーマニアの学術用語リスト(Ro-AWL)の自動抽出に使用される方法論とデータについて述べる。
学術用語リストはL2とL1の教育文脈で有用である。
ルーマニア語については、今のところそのような資料は存在しない。
ro-awlはコーパスと計算言語学の手法とl2アカデミックライティングの手法を組み合わせたものである。
2種類のデータを使用します
(a)ROMBACコーパスに基づくルーマニア周波数リスト等の既存のデータ
(b)専門家のアカデミック・ライティング・コーパスなど、自己コンパイルされたデータ。
学術用語リストを構築するには,英語の学術用語リストを構築するための方法論に従う。
Ro-AWL特徴量(一般分布,POS分布)の4つのディシプリナデータセットへの分布は,これまでの研究と一致している。
Ro-AWLは無料で利用可能であり、教育、研究、NLPアプリケーションに利用できる。
関連論文リスト
- Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - LEXpander: applying colexification networks to automated lexicon
expansion [0.16804697591495946]
LEXpander は,新しいコネクティフィケーションデータを活用する辞書拡張手法である。
LEXpanderは,単語リストの精度とリコールのトレードオフの両面から,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-31T14:55:29Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Pedagogical Word Recommendation: A novel task and dataset on
personalized vocabulary acquisition for L2 learners [4.507860128918788]
Pedagogical Word Recommendation と呼ばれる新しいタスクのためのデータの提案と公開を行う。
PWRの主な目的は、学習者が既に見てきた他の単語に基づいて、ある学習者が与えられた単語を知っているかどうかを予測することである。
このITSの特徴として、学生は、自分たちが解決した質問から知らない単語を直接表示して、ワードブックを作成することができる。
論文 参考訳(メタデータ) (2021-12-27T17:52:48Z) - An Exploratory Study on Utilising the Web of Linked Data for Product
Data Mining [3.7376948366228175]
この研究は、構造化されたデータを利用して、製品分類とリンクに使用される言語リソースを作成する方法を研究するためのeコマース領域に焦点を当てている。
我々は、数億の構造化されたデータポイントをRDF n-quadsの形で処理し、後に言語リソースを作成するために3つの異なる方法で使用される製品関連コーパスの数十万ワードを作成します。
評価の結果,単語の埋め込みは両タスクの精度を向上させる上で最も信頼性が高く一貫した手法であることが示唆された。
論文 参考訳(メタデータ) (2021-09-03T09:58:36Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Automatic Compilation of Resources for Academic Writing and Evaluating
with Informal Word Identification and Paraphrasing System [24.42822218256954]
学術書記のためのリソースを自動構築する最初の手法を提案する。
目的は、テキストを自動的に編集し、学術的な文章のスタイルに忠実な文章作成支援システムを構築することである。
論文 参考訳(メタデータ) (2020-03-05T22:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。