論文の概要: Japanese Lexical Complexity for Non-Native Readers: A New Dataset
- arxiv url: http://arxiv.org/abs/2306.17399v1
- Date: Fri, 30 Jun 2023 04:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:31:57.801081
- Title: Japanese Lexical Complexity for Non-Native Readers: A New Dataset
- Title(参考訳): 非ネイティブ読者のための日本語語彙複雑性:新しいデータセット
- Authors: Yusuke Ide, Masato Mita, Adam Nohejl, Hiroki Ouchi, Taro Watanabe
- Abstract要約: 日本初の語彙複雑性データセットを構築した。
弊社のデータセットは、中国語/韓国語アノテータや、読者のL1固有のニーズに対処するための別の複雑性スコアを提供する。
ベースライン実験では,日本語LCPのためのBERTベースのシステムの有効性を実証する。
- 参考スコア(独自算出の注目度): 17.435354337164807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lexical complexity prediction (LCP) is the task of predicting the complexity
of words in a text on a continuous scale. It plays a vital role in simplifying
or annotating complex words to assist readers. To study lexical complexity in
Japanese, we construct the first Japanese LCP dataset. Our dataset provides
separate complexity scores for Chinese/Korean annotators and others to address
the readers' L1-specific needs. In the baseline experiment, we demonstrate the
effectiveness of a BERT-based system for Japanese LCP.
- Abstract(参考訳): 語彙複雑性予測(Lexical complexity prediction、LCP)は、テキスト中の単語の複雑さを連続的に予測するタスクである。
複雑な単語の単純化や注釈付けにおいて、読者を支援する重要な役割を担っている。
日本語の語彙複雑性を研究するために,最初の日本語lcpデータセットを構築した。
我々のデータセットは、中国語/韓国語アノテーションなど、読者のL1固有のニーズに対応するために、別の複雑性スコアを提供する。
本実験では,日本語LCPのためのBERTベースのシステムの有効性を実証する。
関連論文リスト
- Difficult for Whom? A Study of Japanese Lexical Complexity [12.038720850970213]
このアノテーションを部分的に複製することで,近年の日本人LCPデータセットが対象とする個体群を代表していることを示す。
別の再注釈により、中国語話者は、日中語彙によって、複雑さを異なる形で知覚していることが示される。
グループで訓練されたモデルの平均は、CWIタスクの個々のモデルと似ているが、個人にとって優れたLCP性能を達成することは困難である。
論文 参考訳(メタデータ) (2024-10-24T09:18:53Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Lexical Complexity Controlled Sentence Generation [6.298911438929862]
語彙複雑性制御文生成の新しいタスクを提案する。
学級の読み書き、言語教育、取得などの分野では大きな可能性を秘めている。
本稿では,複雑性の埋め込みに基づく,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T11:03:56Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - LCP-RIT at SemEval-2021 Task 1: Exploring Linguistic Features for
Lexical Complexity Prediction [4.86331990243181]
本稿では,チームLCP-RITによるSemEval-2021 Task 1: Lexical Complexity Prediction (LCP)の提出について述べる。
本システムでは,ロジスティック回帰と幅広い言語的特徴を用いて,このデータセットにおける単一単語の複雑さを予測する。
結果は平均絶対誤差,平均二乗誤差,ピアソン相関,スピアマン相関で評価した。
論文 参考訳(メタデータ) (2021-05-18T18:55:04Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。