論文の概要: Difficult for Whom? A Study of Japanese Lexical Complexity
- arxiv url: http://arxiv.org/abs/2410.18567v1
- Date: Thu, 24 Oct 2024 09:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:02.170335
- Title: Difficult for Whom? A Study of Japanese Lexical Complexity
- Title(参考訳): 難易度と難易度 : 日本における語彙複雑度の検討
- Authors: Adam Nohejl, Akio Hayakawa, Yusuke Ide, Taro Watanabe,
- Abstract要約: このアノテーションを部分的に複製することで,近年の日本人LCPデータセットが対象とする個体群を代表していることを示す。
別の再注釈により、中国語話者は、日中語彙によって、複雑さを異なる形で知覚していることが示される。
グループで訓練されたモデルの平均は、CWIタスクの個々のモデルと似ているが、個人にとって優れたLCP性能を達成することは困難である。
- 参考スコア(独自算出の注目度): 12.038720850970213
- License:
- Abstract: The tasks of lexical complexity prediction (LCP) and complex word identification (CWI) commonly presuppose that difficult to understand words are shared by the target population. Meanwhile, personalization methods have also been proposed to adapt models to individual needs. We verify that a recent Japanese LCP dataset is representative of its target population by partially replicating the annotation. By another reannotation we show that native Chinese speakers perceive the complexity differently due to Sino-Japanese vocabulary. To explore the possibilities of personalization, we compare competitive baselines trained on the group mean ratings and individual ratings in terms of performance for an individual. We show that the model trained on a group mean performs similarly to an individual model in the CWI task, while achieving good LCP performance for an individual is difficult. We also experiment with adapting a finetuned BERT model, which results only in marginal improvements across all settings.
- Abstract(参考訳): 語彙複雑性予測(LCP)と複雑な単語識別(CWI)のタスクは、一般的に、単語を理解するのが難しいことがターゲットの集団によって共有されることを前提としている。
一方、個人化手法は、個人のニーズにモデルを適用するために提案されている。
このアノテーションを部分的に複製することで,近年の日本語LCPデータセットが対象個体数を表すことが確認できた。
別の再注釈では、中国語話者は日中語彙によって複雑さが異なると認識している。
パーソナライゼーションの可能性を探るため,グループ平均格付けと個人別格付けで訓練された競争ベースラインを比較した。
グループで訓練されたモデルの平均は、CWIタスクの個々のモデルと似ているが、個人にとって優れたLCP性能を達成することは困難である。
また、細調整されたBERTモデルの適用実験を行い、その結果、すべての設定において限界的な改善が得られた。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Japanese Lexical Complexity for Non-Native Readers: A New Dataset [17.435354337164807]
日本初の語彙複雑性データセットを構築した。
弊社のデータセットは、中国語/韓国語アノテータや、読者のL1固有のニーズに対処するための別の複雑性スコアを提供する。
ベースライン実験では,日本語LCPのためのBERTベースのシステムの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T04:37:43Z) - On Evaluating Multilingual Compositional Generalization with Translated
Datasets [34.51457321680049]
構成一般化能力は言語によって異なることを示す。
我々は、MCWQデータセットを英語から中国語、日本語に忠実に翻訳する。
MCWQ-Rとよばれるロバストなベンチマークが得られたとしても、構成の分布は言語的な相違によって依然として苦しんでいることが示される。
論文 参考訳(メタデータ) (2023-06-20T10:03:57Z) - Visual Comparison of Language Model Adaptation [55.92129223662381]
アダプタは、モデル適応のための軽量な代替品です。
本稿では,インタラクティブな視覚的説明手法について,いくつかの設計と代替案について論じる。
例えば、文脈0の埋め込みに従って言語脱バイアスタスクを訓練したアダプタが、新しいタイプのバイアスをもたらすことを示す。
論文 参考訳(メタデータ) (2022-08-17T09:25:28Z) - One Size Does Not Fit All: The Case for Personalised Word Complexity
Models [4.035753155957698]
複雑な単語識別(CWI)は、読者が理解し難いと思われるテキスト内の単語を検出することを目的としている。
本稿では,個人読者の単語の複雑さを予測する上で,個人モデルが最も優れていることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:53:31Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。