論文の概要: CEFR-Based Sentence Difficulty Annotation and Assessment
- arxiv url: http://arxiv.org/abs/2210.11766v1
- Date: Fri, 21 Oct 2022 07:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:44:45.283116
- Title: CEFR-Based Sentence Difficulty Annotation and Assessment
- Title(参考訳): CEFRに基づく文のアノテーションと評価
- Authors: Yuki Arase, Satoru Uchida, Tomoyuki Kajiwara
- Abstract要約: CEFRベースのSentence Profile (CEFR-SP) コーパスには、共通ヨーロッパ参照言語フレームワークに基づいた17kの英語文が注釈付けされている。
本研究では, マクロF1スコアの84.5%をレベルアセスメントで達成し, 可読性評価において強いベースラインを達成できた。
- 参考スコア(独自算出の注目度): 25.71796445061561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable text simplification is a crucial assistive technique for
language learning and teaching. One of the primary factors hindering its
advancement is the lack of a corpus annotated with sentence difficulty levels
based on language ability descriptions. To address this problem, we created the
CEFR-based Sentence Profile (CEFR-SP) corpus, containing 17k English sentences
annotated with the levels based on the Common European Framework of Reference
for Languages assigned by English-education professionals. In addition, we
propose a sentence-level assessment model to handle unbalanced level
distribution because the most basic and highly proficient sentences are
naturally scarce. In the experiments in this study, our method achieved a
macro-F1 score of 84.5% in the level assessment, thus outperforming strong
baselines employed in readability assessment.
- Abstract(参考訳): 制御可能なテキスト簡易化は、言語学習と教育において重要な支援技術である。
その進歩を妨げる主要な要因の1つは、言語能力の記述に基づく文難度を注釈付けしたコーパスの欠如である。
この問題に対処するため,CEFR をベースとした Sentence Profile (CEFR-SP) コーパスを作成した。
また,最も基本的で高度に熟練した文は自然に不足するため,不均衡なレベル分布を扱う文レベル評価モデルを提案する。
本研究の実験では, レベル評価においてマクロf1スコア84.5%を達成し, 可読性評価に使用される強いベースラインを上回った。
関連論文リスト
- Guidelines for Fine-grained Sentence-level Arabic Readability Annotation [9.261022921574318]
Balanced Arabic Readability Evaluation Corpus (BAREC) プロジェクトは、さまざまな可読性レベルに対応する包括的なアラビア語リソースの必要性に対処するために設計されている。
Taha/Arabi21の可読性参照にインスパイアされたBARECは、19の異なるレベルにわたる文レベルのアラビア文字の可読性を評価するための標準化された参照を提供することを目指している。
本稿は,10,631文・フレーズ(113,651語)の分析を通じて,本ガイドラインに焦点をあてたものである。
論文 参考訳(メタデータ) (2024-10-11T09:59:46Z) - Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation [71.72465617754553]
対象中心の3次元空間関係を伝達する低レベルな文を生成し,これらを追加言語として組み込んで,深度推定における下流の影響を評価する。
我々の重要な発見は、現在の言語誘導深度推定器がシーンレベルの記述のみを最適に実行することである。
追加データを活用するにもかかわらず、これらの手法は敵の直接攻撃や分散シフトの増加に伴う性能低下に対して堅牢ではない。
論文 参考訳(メタデータ) (2024-04-12T15:35:20Z) - Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。
自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文 参考訳(メタデータ) (2024-03-19T12:21:20Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - Monolingual and Cross-Lingual Acceptability Judgments with the Italian
CoLA corpus [2.418273287232718]
ItaCoLAコーパスは,受理性判定を伴う約1万文を含む。
また、多言語トランスフォーマーに基づくアプローチが、微調整中に2つの言語で文を使うことのメリットを評価できるかを評価することを目的とした、最初の言語間実験も提示する。
論文 参考訳(メタデータ) (2021-09-24T16:18:53Z) - Deep learning for sentence clustering in essay grading support [1.7259867886009057]
フィンランド語における大学生エッセイの2つのデータセットを紹介し,文レベルの有意な議論に対して手作業で注釈を付ける。
我々は,エッセイグレーディングを支援するために,文クラスタリングに適した深層学習埋め込み手法をいくつか評価した。
論文 参考訳(メタデータ) (2021-04-23T12:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。