論文の概要: Benchmarking zero-shot and few-shot approaches for tokenization,
tagging, and dependency parsing of Tagalog text
- arxiv url: http://arxiv.org/abs/2208.01814v1
- Date: Wed, 3 Aug 2022 02:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:26:17.725646
- Title: Benchmarking zero-shot and few-shot approaches for tokenization,
tagging, and dependency parsing of Tagalog text
- Title(参考訳): Tagalogテキストのトークン化、タグ付け、依存性解析のためのゼロショットおよび少数ショットアプローチのベンチマーク
- Authors: Angelina Aquino and Franz de Leon
- Abstract要約: 注釈付きタガログデータがない場合にタスク固有モデル作成に補助的なデータソースを使用することを検討する。
これらのゼロショットと少数ショットのアプローチは、ドメイン内およびドメイン外の両方のタガログテキストの文法解析を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The grammatical analysis of texts in any human language typically involves a
number of basic processing tasks, such as tokenization, morphological tagging,
and dependency parsing. State-of-the-art systems can achieve high accuracy on
these tasks for languages with large datasets, but yield poor results for
languages such as Tagalog which have little to no annotated data. To address
this issue for the Tagalog language, we investigate the use of auxiliary data
sources for creating task-specific models in the absence of annotated Tagalog
data. We also explore the use of word embeddings and data augmentation to
improve performance when only a small amount of annotated Tagalog data is
available. We show that these zero-shot and few-shot approaches yield
substantial improvements on grammatical analysis of both in-domain and
out-of-domain Tagalog text compared to state-of-the-art supervised baselines.
- Abstract(参考訳): 人間の言語におけるテキストの文法解析には、トークン化、形態的タグ付け、依存解析など、多くの基本的な処理タスクが含まれる。
最先端のシステムは、大規模なデータセットを持つ言語において、これらのタスクにおいて高い精度を達成できるが、注釈付きデータを持たないtagalogのような言語では、結果が乏しい。
タガログ言語におけるこの問題に対処するために,注釈付きタガログデータがない場合のタスク固有モデル作成に補助的なデータソースを使用することを検討する。
また、少量の注釈付きtagalogデータしか利用できない場合のパフォーマンスを向上させるために、単語埋め込みとデータ拡張の利用についても検討する。
これらのゼロショットと少数ショットのアプローチは、最先端の教師付きベースラインと比較して、ドメイン内およびドメイン外タガログテキストの両方の文法解析において大幅に改善することを示している。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Training Effective Neural Sentence Encoders from Automatically Mined
Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。
本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。
文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文 参考訳(メタデータ) (2022-07-26T09:08:56Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - DT-grams: Structured Dependency Grammar Stylometry for Cross-Language
Authorship Attribution [0.20305676256390934]
本稿では,依存性グラフと音声タグの普遍的部分に基づく著者分析のための新しい言語非依存機能DT-gramを提案する。
我々は、バイリンガル著者の翻訳されていないデータセットに対して、クロスランゲージなオーサリング属性を実行することでDT-gramを評価する。
論文 参考訳(メタデータ) (2021-06-10T11:50:07Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Sparsely Factored Neural Machine Translation [3.4376560669160394]
言語情報をニューラルマシン翻訳システムに組み込む標準的なアプローチは、注釈付き特徴ごとに別々の語彙を維持することである。
そこで本研究では,ドメイン外データの大幅な改善と,ドメイン内データに匹敵する品質を示す手法を提案する。
低リソースシナリオの場合、実験はバスク語やドイツ語のような形態素豊かな言語で行われる。
論文 参考訳(メタデータ) (2021-02-17T18:42:00Z) - Neural Approaches for Data Driven Dependency Parsing in Sanskrit [19.844420181108177]
我々は、もともと異なる言語向けに提案された4つの異なるデータ駆動機械学習モデルを評価し、サンスクリットデータの性能を比較した。
低リソース環境での各モデルのパフォーマンスを1500文のトレーニングで比較する。
また,これらのシステムに対して文を入力として提供する単語順序付けの影響について,詩文とその対応する散文順序を解析することによって検討する。
論文 参考訳(メタデータ) (2020-04-17T06:47:15Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。