論文の概要: Limpeh ga li gong: Challenges in Singlish Annotations
- arxiv url: http://arxiv.org/abs/2410.16156v1
- Date: Mon, 21 Oct 2024 16:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:50.218519
- Title: Limpeh ga li gong: Challenges in Singlish Annotations
- Title(参考訳): Limpeh ga li gong: Singlish Annotationsの挑戦
- Authors: Lynnette Hui Xian Ng, Luo Qi Chan,
- Abstract要約: 本稿では,Singlish文のPOSタグ付けという,自然言語処理の基本タスクについて検討する。
そこで本研究では,ネイティブなSinglish話者による翻訳とPOSアノテーションを用いて,直接英訳とPOSタグを含む並列Singlishデータセットを構築した。
自動トランジションおよびトランスフォーマーベースのタグは、人名付きPOSラベルに対して評価すると、たったの$sim 80%の精度で実行される。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License:
- Abstract: Singlish, or Colloquial Singapore English, is a language formed from oral and social communication within multicultural Singapore. In this work, we work on a fundamental Natural Language Processing (NLP) task: Parts-Of-Speech (POS) tagging of Singlish sentences. For our analysis, we build a parallel Singlish dataset containing direct English translations and POS tags, with translation and POS annotation done by native Singlish speakers. Our experiments show that automatic transition- and transformer- based taggers perform with only $\sim 80\%$ accuracy when evaluated against human-annotated POS labels, suggesting that there is indeed room for improvement on computation analysis of the language. We provide an exposition of challenges in Singlish annotation: its inconsistencies in form and semantics, the highly context-dependent particles of the language, its structural unique expressions, and the variation of the language on different mediums. Our task definition, resultant labels and results reflects the challenges in analysing colloquial languages formulated from a variety of dialects, and paves the way for future studies beyond POS tagging.
- Abstract(参考訳): シンガポール語(シンガポール語: Singlish、英語: Colloquial Singapore)は、シンガポールの多文化圏における口頭および社会コミュニケーションから形成される言語である。
本研究では,Singlish文のPOSタグ付けを基本自然言語処理(NLP)タスクとして扱う。
そこで本研究では,ネイティブなSinglish話者による翻訳とPOSアノテーションを用いて,直接英訳とPOSタグを含む並列Singlishデータセットを構築した。
提案実験により,自動トランスフォーメーションおよびトランスフォーマーベースのタグは,人手によるPOSラベルに対する評価において,$\sim 80\%$の精度で処理できることが示唆された。
我々は、Singlishアノテーションにおける課題の表出を提供する:形式と意味論における矛盾、言語の文脈依存性の高い粒子、その構造的ユニークな表現、および異なる媒体上での言語の変化。
タスク定義,結果ラベル,結果は,様々な方言から定式化された口語を解析する上での課題を反映し,POSタグ以外の今後の研究の道を開くものである。
関連論文リスト
- Disentangling Singlish Discourse Particles with Task-Driven Representation [1.3812010983144802]
シングリッシュ(英語: Singlish、正式にはコロキール・シンガポール英語)は、南東アジアのシンガポールを起源とするクレオール語である。
シングリッシュを理解するための基本的な課題は、まずその言論粒子の実用的函数を理解することである。
この研究は、Singlishの談話粒子をタスク駆動表現学習で解き放つための予備的な取り組みを提供する。
解離後、これらの談話粒子をクラスタリングし、実効性を識別し、Singlish-to- English 機械翻訳を行う。
論文 参考訳(メタデータ) (2024-09-30T15:04:17Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。