Fugu-MT 論文翻訳(概要): fugashi, a Tool for Tokenizing Japanese in Python

論文の概要: fugashi, a Tool for Tokenizing Japanese in Python

arxiv url: http://arxiv.org/abs/2010.06858v1
Date: Wed, 14 Oct 2020 07:52:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 13:19:07.576673
Title: fugashi, a Tool for Tokenizing Japanese in Python
Title（参考訳）: pythonで日本語をトークン化するツールfugashi
Authors: Paul McCann
Abstract要約: 本稿では,Python用MeCabラッパーであるフガシを紹介し,日本語のトークン化について紹介する。 Fugashiはスペースなしで書かれており、トークン化は簡単ではない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Recent years have seen an increase in the number of large-scale multilingual NLP projects. However, even in such projects, languages with special processing requirements are often excluded. One such language is Japanese. Japanese is written without spaces, tokenization is non-trivial, and while high quality open source tokenizers exist they can be hard to use and lack English documentation. This paper introduces fugashi, a MeCab wrapper for Python, and gives an introduction to tokenizing Japanese.
Abstract（参考訳）: 近年、大規模多言語nlpプロジェクトの数が増加している。しかし、そのようなプロジェクトでも、特別な処理要件を持つ言語は除外されることが多い。そのような言語は日本語である。日本語はスペースなしで書かれており、トークン化は自明ではない。高品質なオープンソーストークンは存在するが、使用が難しく、英語のドキュメントが欠如している。本稿では,Python用MeCabラッパーであるフガシを紹介し,日本語のトークン化について紹介する。

関連論文リスト

ILID: Native Script Language Identification for Indian Languages [0.0]
言語識別のコア課題は、ノイズの多い、短い、そしてコード混在した環境で言語を区別することにある。英語を含む23の言語と、その言語識別子をラベル付けした22の公用語からなる250K文のデータセットをリリースする。我々のモデルは、言語識別タスクのための最先端の訓練済みトランスフォーマーモデルより優れています。
論文参考訳（メタデータ） (2025-07-16T01:39:32Z)
Automated Python Translation [27.835184325945164]
我々は、Pythonの自然なモダリティを他の人間の言語に自動的に翻訳するタスクを紹介します。これはこれらの形式の短縮性を考えると、ユニークな挑戦である。我々は、Pythonを他のヒューマン言語に翻訳する自動パイプラインを作成します。
論文参考訳（メタデータ） (2025-04-15T15:30:22Z)
Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文参考訳（メタデータ） (2025-02-10T13:50:12Z)
From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-04T21:19:20Z)
Egalitarian Language Representation in Language Models: It All Begins with Tokenizers [0.0]
すべてのトークンライザが、Tamil、Sinhala、Hindiといった複雑なスクリプト言語に対して公正な表現を提供するわけではないことを示す。本稿では,Grapheme Pair と呼ばれるグラフエムを組み込むことにより,Byte Pair アルゴリズムの改良を提案する。実験の結果, 文字抽出は複雑なスクリプトに対して, バイトレベルのトークン化器よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-09-17T19:05:37Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
Automatic Generation of Python Programs Using Context-Free Grammars [0.1227734309612871]
TinyPy Generatorは、文脈自由文法を使ってランダムなPythonプログラムを生成するツールである。私たちのシステムは、さまざまなレベルの複雑さを持つコードを生成するために、カスタムプロダクションルールを使用します。 TinyPy Generatorは機械学習の分野で有用であり、Python言語モデルをトレーニングするための大量のPythonコードを生成することができる。
論文参考訳（メタデータ） (2024-03-11T08:25:52Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文参考訳（メタデータ） (2023-05-17T14:17:57Z)
Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。 BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。 ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文参考訳（メタデータ） (2023-03-23T18:16:30Z)
MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文参考訳（メタデータ） (2022-03-16T04:21:50Z)
pysentimiento: A Python Toolkit for Opinion Mining and Social NLP tasks [0.2826977330147589]
pysentimientoは意見マイニングやその他のソーシャルNLPタスク用に設計されたPythonツールキットである。このオープンソースライブラリは、簡単に使えるPythonライブラリで、スペイン語、英語、イタリア語、ポルトガル語の最先端モデルを提供する。各種タスク,言語,データセットにまたがる事前学習言語モデルの総合的な性能評価を行う。
論文参考訳（メタデータ） (2021-06-17T13:15:07Z)
Stanza: A Python Natural Language Processing Toolkit for Many Human Languages [44.8226642800919]
我々は,オープンソースのPython自然言語処理ツールキットであるStanzaを紹介した。 Stanzaは、トークン化、マルチワードトークン拡張、レムマティゼーション、パート・オブ・音声、形態的特徴タグ付けなど、テキスト分析のための言語に依存しない完全なニューラルネットワークを備えている。我々は、Universal Dependencies Treebanksや他の多言語コーパスを含む、合計112のデータセットでStanzaをトレーニングしました。
論文参考訳（メタデータ） (2020-03-16T09:05:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。