Fugu-MT 論文翻訳(概要): Limpeh ga li gong: Challenges in Singlish Annotations

論文の概要: Limpeh ga li gong: Challenges in Singlish Annotations

arxiv url: http://arxiv.org/abs/2410.16156v1
Date: Mon, 21 Oct 2024 16:21:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.55255
Title: Limpeh ga li gong: Challenges in Singlish Annotations
Title（参考訳）: Limpeh ga li gong: Singlish Annotationsの挑戦
Authors: Lynnette Hui Xian Ng, Luo Qi Chan,
Abstract要約: 本稿では,Singlish文のPOSタグ付けという,自然言語処理の基本タスクについて検討する。そこで本研究では,ネイティブなSinglish話者による翻訳とPOSアノテーションを用いて,直接英訳とPOSタグを含む並列Singlishデータセットを構築した。自動トランジションおよびトランスフォーマーベースのタグは、人名付きPOSラベルに対して評価すると、たったの$sim 80%の精度で実行される。
参考スコア（独自算出の注目度）: 1.3812010983144802
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Singlish, or Colloquial Singapore English, is a language formed from oral and social communication within multicultural Singapore. In this work, we work on a fundamental Natural Language Processing (NLP) task: Parts-Of-Speech (POS) tagging of Singlish sentences. For our analysis, we build a parallel Singlish dataset containing direct English translations and POS tags, with translation and POS annotation done by native Singlish speakers. Our experiments show that automatic transition- and transformer- based taggers perform with only $\sim 80\%$ accuracy when evaluated against human-annotated POS labels, suggesting that there is indeed room for improvement on computation analysis of the language. We provide an exposition of challenges in Singlish annotation: its inconsistencies in form and semantics, the highly context-dependent particles of the language, its structural unique expressions, and the variation of the language on different mediums. Our task definition, resultant labels and results reflects the challenges in analysing colloquial languages formulated from a variety of dialects, and paves the way for future studies beyond POS tagging.
Abstract（参考訳）: シンガポール語(シンガポール語: Singlish、英語: Colloquial Singapore)は、シンガポールの多文化圏における口頭および社会コミュニケーションから形成される言語である。本研究では,Singlish文のPOSタグ付けを基本自然言語処理(NLP)タスクとして扱う。そこで本研究では,ネイティブなSinglish話者による翻訳とPOSアノテーションを用いて,直接英訳とPOSタグを含む並列Singlishデータセットを構築した。提案実験により,自動トランスフォーメーションおよびトランスフォーマーベースのタグは,人手によるPOSラベルに対する評価において,$\sim 80\%$の精度で処理できることが示唆された。我々は、Singlishアノテーションにおける課題の表出を提供する:形式と意味論における矛盾、言語の文脈依存性の高い粒子、その構造的ユニークな表現、および異なる媒体上での言語の変化。タスク定義,結果ラベル,結果は,様々な方言から定式化された口語を解析する上での課題を反映し,POSタグ以外の今後の研究の道を開くものである。

関連論文リスト

Toxicity-Aware Few-Shot Prompting for Low-Resource Singlish Translation [3.7678366606419345]
低リソースの言語ペア間の有害な内容の翻訳は、攻撃的な表現を衛生化するための並列データと安全フィルタの不足による課題を提起する。コードミキシングされたSinglishセーフティコーパス上で実証された毒性保存翻訳のための2段階のフレームワークを提案する。我々は,Singlishを包括的NLPテストベッドとして位置づけることにより,実世界の応用における社会言語的ニュアンスを維持することの重要性を強調した。
論文参考訳（メタデータ） (2025-07-16T06:58:02Z)
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
Disentangling Singlish Discourse Particles with Task-Driven Representation [1.3812010983144802]
シングリッシュ(英語: Singlish、正式にはコロキール・シンガポール英語)は、南東アジアのシンガポールを起源とするクレオール語である。シングリッシュを理解するための基本的な課題は、まずその言論粒子の実用的函数を理解することである。この研究は、Singlishの談話粒子をタスク駆動表現学習で解き放つための予備的な取り組みを提供する。解離後、これらの談話粒子をクラスタリングし、実効性を識別し、Singlish-to- English 機械翻訳を行う。
論文参考訳（メタデータ） (2024-09-30T15:04:17Z)
LEVOS: Leveraging Vocabulary Overlap with Sanskrit to Generate Technical Lexicons in Indian Languages [39.08623113730563]
技術的用語の言語情報翻訳のためのサンスクリットに基づくセグメントの新規な利用法を提案する。提案手法では,意味のあるサブワード単位の識別に文字レベルセグメンテーションを用いる。我々はサンスクリットから派生したセグメントを用いた技術用語翻訳のための2つの実験的な設定における一貫した改善を観察する。
論文参考訳（メタデータ） (2024-07-08T18:50:13Z)
Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文参考訳（メタデータ） (2024-06-28T08:59:24Z)
A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文参考訳（メタデータ） (2023-05-29T11:54:50Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
Augmenting Part-of-speech Tagging with Syntactic Information for Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文参考訳（メタデータ） (2021-02-24T08:57:02Z)
Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文参考訳（メタデータ） (2020-12-31T03:24:34Z)
Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文参考訳（メタデータ） (2020-04-28T05:23:43Z)
Investigating Language Impact in Bilingual Approaches for Computational Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文参考訳（メタデータ） (2020-03-30T10:30:34Z)
On the Importance of Word Order Information in Cross-lingual Sequence Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2020-01-30T03:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。