論文の概要: User-Generated Text Corpus for Evaluating Japanese Morphological
Analysis and Lexical Normalization
- arxiv url: http://arxiv.org/abs/2104.03523v1
- Date: Thu, 8 Apr 2021 05:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:11:48.315119
- Title: User-Generated Text Corpus for Evaluating Japanese Morphological
Analysis and Lexical Normalization
- Title(参考訳): 日本語形態素解析と語彙正規化のためのユーザ生成テキストコーパス
- Authors: Shohei Higashiyama, Masao Utiyama, Taro Watanabe, Eiichiro Sumita
- Abstract要約: 一般公開のugtコーパスを構築した。
コーパスは, 形態情報および正規化情報を付加した929文と, 頻繁なUGT現象を分類したカテゴリ情報から構成される。
コーパスの実験では、非一般語および非標準形に対する既存のMA/LN手法の低性能を実証し、このコーパスがUGTのさらなる研究のための挑戦的なベンチマークとなることを示した。
- 参考スコア(独自算出の注目度): 39.536741207858256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Morphological analysis (MA) and lexical normalization (LN) are both important
tasks for Japanese user-generated text (UGT). To evaluate and compare different
MA/LN systems, we have constructed a publicly available Japanese UGT corpus.
Our corpus comprises 929 sentences annotated with morphological and
normalization information, along with category information we classified for
frequent UGT-specific phenomena. Experiments on the corpus demonstrated the low
performance of existing MA/LN methods for non-general words and non-standard
forms, indicating that the corpus would be a challenging benchmark for further
research on UGT.
- Abstract(参考訳): 形態素解析(MA)と語彙正規化(LN)はどちらも,日本語ユーザ生成テキスト(UGT)にとって重要な課題である。
各種MA/LNシステムの評価と比較を行うため,日本語UGTコーパスを構築した。
コーパスは, 形態情報および正規化情報を付加した929文と, 頻繁なUGT現象を分類したカテゴリ情報から構成される。
コーパスの実験では、非一般語および非標準形に対する既存のMA/LN手法の低性能を実証し、このコーパスがUGTのさらなる研究のための挑戦的なベンチマークとなることを示した。
関連論文リスト
- Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation [13.713981533436135]
本稿では,ソース言語の単語順に従う単調翻訳の特徴を同時解釈(SI)で解析する。
NAIST英語と日本語の単調翻訳評価データセットを用いて,チャンクワイド単調翻訳(CMT)文の特徴を解析した。
さらに,既存の音声翻訳(ST)と同時音声翻訳(simulST)モデルからの出力を評価し,CMT文の特徴について検討した。
論文 参考訳(メタデータ) (2024-06-13T09:10:16Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - The Grammar of Emergent Languages [19.17358904009426]
UGI技術は創発的言語を解析するのに適していることを示す。
次に、典型的な参照ゲーム設定に現れる言語が構文構造を示すかどうかを考察する。
我々の実験は、構造が現れるためには、一定のメッセージ長と語彙サイズが必要であることを実証した。
論文 参考訳(メタデータ) (2020-10-05T15:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。