論文の概要: Word Segmentation for Asian Languages: Chinese, Korean, and Japanese
- arxiv url: http://arxiv.org/abs/2407.19400v1
- Date: Sun, 28 Jul 2024 05:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:22:10.254455
- Title: Word Segmentation for Asian Languages: Chinese, Korean, and Japanese
- Title(参考訳): アジア言語のための単語セグメンテーション--中国語、韓国語、日本語
- Authors: Matthew Rho, Yexin Tian, Qin Chen,
- Abstract要約: 本稿では,アジア言語,特に中国語,韓国語,日本語の単語セグメンテーションへの様々なアプローチについて概説する。
各言語において,単語分割を扱うアプローチは異なる。また,各手法に対する特定の利点や欠点についての分析も含んでいる。
- 参考スコア(独自算出の注目度): 4.587833301800945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide a detailed overview of various approaches to word segmentation of Asian Languages, specifically Chinese, Korean, and Japanese languages. For each language, approaches to deal with word segmentation differs. We also include our analysis about certain advantages and disadvantages to each method. In addition, there is room for future work in this field.
- Abstract(参考訳): 本稿では,アジア言語,特に中国語,韓国語,日本語の単語セグメンテーションへの様々なアプローチについて概説する。
各言語について、単語分割を扱うアプローチが異なる。
また、各手法に対する特定の利点と欠点についての分析も含んでいます。
また、この分野には将来的な仕事の場もある。
関連論文リスト
- SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Challenges of Multilingual Program Specification and Analysis [4.21419801774618]
マルチ言語プログラミングで一般的に使用される特徴が,その特徴を特定・解析する能力に与える影響について論じる。
多言語プログラムのいくつかの例と、その振る舞いを公式に推論する複雑さについて述べる。
また、多言語プログラム分析における技術の現状を要約し、オープンなままの課題を含める。
論文 参考訳(メタデータ) (2024-07-16T12:29:54Z) - CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。
本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文 参考訳(メタデータ) (2024-04-19T04:02:50Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Word segmentation granularity in Korean [1.0619039878979954]
韓国語では、単語のセグメンテーションの粒度には複数のレベルがある。
特定の言語処理やコーパスアノテーションタスクでは、いくつかの異なる粒度レベルが提案され、利用されている。
興味深いことに、機能的形態素のみを分離した粒度は、句構造解析の最適性能をもたらす。
論文 参考訳(メタデータ) (2023-09-07T13:42:05Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - That Slepen Al the Nyght with Open Ye! Cross-era Sequence Segmentation
with Switch-memory [8.569804490994219]
中国語単語セグメンテーション(CWS)のためのクロスプラットフォーム学習フレームワーク
CrossWISEはスイッチメモリ(SM)モジュールを使用して、時代固有の言語知識を取り入れている。
異なる時代の4つのコーパスの実験により、各コーパスの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-09-07T07:21:23Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Computational historical linguistics and language diversity in South
Asia [1.5293427903448025]
南アジアには多くの言語があり、その多くは新しい言語技術にアクセスできない。
この言語多様性はまた、比較言語学、接触言語学、歴史言語学の研究にともなう研究環境をもたらす。
我々は、南アジアの言語技術の発達において、データの散らばりが主要な障害であると主張している。
論文 参考訳(メタデータ) (2022-03-23T16:36:24Z) - A multilabel approach to morphosyntactic probing [3.0013352260516744]
マルチリンガルBERTは多くの形態合成特徴を簡便かつ同時に抽出できることを示した。
ゼロショット転送設定で、6つの「ホールドアウト」言語のプローブを評価します。
論文 参考訳(メタデータ) (2021-04-17T06:24:04Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。