Fugu-MT 論文翻訳(概要): A Baseline Readability Model for Cebuano

論文の概要: A Baseline Readability Model for Cebuano

arxiv url: http://arxiv.org/abs/2203.17225v1
Date: Thu, 31 Mar 2022 17:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-01 17:55:26.394907
Title: A Baseline Readability Model for Cebuano
Title（参考訳）: セブアーノのベースライン可読性モデル
Authors: Lloyd Lois Antonie Reyes, Michael Antonio Iba\~nez, Ranz Sapinit, Mohammed Hussien, Joseph Marvin Imperial
Abstract要約: セブアーノ語の最初のベースライン可読性モデルを開発した。セブアーノ語はフィリピンで2番目に多く使われている母語であり、約27.5万人が話者である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we developed the first baseline readability model for the Cebuano language. Cebuano is the second most-used native language in the Philippines with about 27.5 million speakers. As the baseline, we extracted traditional or surface-based features, syllable patterns based from Cebuano's documented orthography, and neural embeddings from the multilingual BERT model. Results show that the use of the first two handcrafted linguistic features obtained the best performance trained on an optimized Random Forest model with approximately 84\% across all metrics. The feature sets and algorithm used also is similar to previous results in readability assessment for the Filipino language showing potential of crosslingual application. To encourage more work for readability assessment in Philippine languages such as Cebuano, we open-sourced both code and data.
Abstract（参考訳）: 本研究では,セブアーノ語の最初のベースライン可読性モデルを開発した。セブアーノ語はフィリピンで2番目に多く使われている言語であり、約2750万人の話者がいる。ベースラインとして,伝統的あるいは表面的特徴,セブアノの文書的正書法に基づく音節パターン,多言語bertモデルから神経埋め込みを抽出した。その結果、最初の2つの手作り言語特徴の使用は、すべての指標で約84\%の最適化されたランダムフォレストモデルで訓練された最高の性能を得た。使用する特徴セットとアルゴリズムは、言語間アプリケーションの可能性を示すフィリピン語の可読性評価の以前の結果と似ている。 cebuanoのようなフィリピンの言語で可読性を評価する作業を促進するため、コードとデータの両方をオープンソース化しました。

関連論文リスト

Kanana: Compute-efficient Bilingual Language Models [9.597618914676106]
カナナ(Kanana)は、韓国語のパフォーマンスと英語の競争性能を超越した二言語モデルである。このレポートでは、計算効率が良いが競争力のあるモデルを実現するために、事前学習で使用されるテクニックについて詳述している。本報告では, 埋め込み, 検索拡張生成, 関数呼び出しなど, 特定のシナリオへの言語モデル適応に有効なアプローチについて詳述する。
論文参考訳（メタデータ） (2025-02-26T08:36:20Z)
Filipino Benchmarks for Measuring Sexist and Homophobic Bias in Multilingual Language Models from Southeast Asia [0.3376269351435396]
フィリピンのテキストを扱う事前訓練された言語モデルにおいて、性差別とアンチクイアバイアスの両方を評価するベンチマークを導入する。ベンチマークは、英国偏見評価データセットの文化的適応による7,074の新たな課題ペアで構成されています。多言語モデルの場合、特定の言語で学習したバイアスの程度は、モデルが暴露した言語における事前学習データ量に影響されることがわかった。
論文参考訳（メタデータ） (2024-12-10T08:31:52Z)
BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment in Central Philippine Languages [8.64545246732563]
我々は,フィリピンの低資源言語における可読性評価のためのコーパスとベースラインモデルの拡張を目的としたイニシアチブの一環として,BasahaCorpusを導入・リリースする。私たちは、Hiligaynon、Minasbate、Karay-a、Rinconadaで書かれた短編物語のコーパスをまとめました。本稿では,家系木に言語を配置し,利用可能なトレーニングデータの量を増やす階層型言語間モデリング手法を提案する。
論文参考訳（メタデータ） (2023-10-17T21:05:20Z)
CebuaNER: A New Baseline Cebuano Named Entity Recognition Model [1.5056924758531152]
本稿ではCebuaNERについて紹介する。CebuaNERはCebuano言語における名前付きエンティティ認識のための新しいベースラインモデルである。モデルを構築するために、4000以上のニュース記事を収集し、注釈を付けました。その結果,新しいベースラインモデルとして有望な結果が得られ,すべてのエンティティタグに対して70%以上の精度,リコール,F1が達成された。
論文参考訳（メタデータ） (2023-10-01T14:09:42Z)
Automatic Readability Assessment for Closely Related Languages [6.233117407988574]
この研究は、相互の知性や言語関連度などの言語的側面が、低リソース環境でのARAをどのように改善できるかに焦点を当てる。フィリピン・タガログ語・ビコル語・セブアーノ語の3言語で書かれた短い記事を収集し,読みやすさ評価モデルを構築した。本研究は, 相互信頼度の高い言語にn-gram重み付けを適用した新たな機能であるCrossNGOの導入により, ARAモデルの性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-05-22T20:42:53Z)
Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文参考訳（メタデータ） (2023-03-30T16:34:10Z)
Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。類型的に多様な訓練言語のサンプルからこの分布を推測する。我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文参考訳（メタデータ） (2021-08-06T23:49:18Z)
Diverse Linguistic Features for Assessing Reading Difficulty of Educational Filipino Texts [0.0]
本稿では,フィリピンの教育用テキストの自動可読性評価モデルの開発について述べる。その結果,ランダムフォレストモデルを用いた場合の精度は62.7%であった。
論文参考訳（メタデータ） (2021-07-31T13:59:46Z)
Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。本稿では,ラベルのないデータを利用して性能を向上する。
論文参考訳（メタデータ） (2021-05-08T08:04:30Z)
Improving the Lexical Ability of Pretrained Language Models for Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。これまでの研究では、これは表現が十分に整合していないためです。本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文参考訳（メタデータ） (2021-03-18T21:17:58Z)
Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature [0.0]
フィリピン語で書かれた児童書の読みやすさの向上に向けた語彙的特徴の利用を検討する。その結果,タイプトケン比,語彙密度,語彙変動,異語数と従来の特徴(TRAD)を組み合わせた語彙特徴(LEX)を組み合わせることで,可読性モデルの性能を約5%向上した。
論文参考訳（メタデータ） (2021-01-22T19:54:37Z)
Constructing Taxonomies from Pretrained Language Models [52.53846972667636]
本稿では,事前学習した言語モデルを用いて分類木(WordNetなど)を構築する手法を提案する。我々のアプローチは2つのモジュールから構成されており、1つは親関係を予測し、もう1つはそれらの予測を木に調整する。我々は、WordNetからサンプリングされたサブツリーでモデルをトレーニングし、重複しないWordNetサブツリーでテストする。
論文参考訳（メタデータ） (2020-10-24T07:16:21Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。