論文の概要: Cross-corpus Readability Compatibility Assessment for English Texts
- arxiv url: http://arxiv.org/abs/2306.09704v1
- Date: Fri, 16 Jun 2023 09:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:30:10.896495
- Title: Cross-corpus Readability Compatibility Assessment for English Texts
- Title(参考訳): 英語テキストのクロスコーポレーション可読性互換性評価
- Authors: Zhenzhen Li, Han Ding, Shaohong Zhang
- Abstract要約: 本稿では,新たな評価フレームワークであるクロスコーパステキスト可読性評価を提案する。
このフレームワークは、コーパス:CEFR、CLEC、CLOTH、NES、OSP、RACEの3つの主要なコンポーネントを含んでいる。
この結果,OSPは他のデータセットと大きく異なっていた。
- 参考スコア(独自算出の注目度): 9.632087214875312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text readability assessment has gained significant attention from researchers
in various domains. However, the lack of exploration into corpus compatibility
poses a challenge as different research groups utilize different corpora. In
this study, we propose a novel evaluation framework, Cross-corpus text
Readability Compatibility Assessment (CRCA), to address this issue. The
framework encompasses three key components: (1) Corpus: CEFR, CLEC, CLOTH, NES,
OSP, and RACE. Linguistic features, GloVe word vector representations, and
their fusion features were extracted. (2) Classification models: Machine
learning methods (XGBoost, SVM) and deep learning methods (BiLSTM,
Attention-BiLSTM) were employed. (3) Compatibility metrics: RJSD, RRNSS, and
NDCG metrics. Our findings revealed: (1) Validated corpus compatibility, with
OSP standing out as significantly different from other datasets. (2) An
adaptation effect among corpora, feature representations, and classification
methods. (3) Consistent outcomes across the three metrics, validating the
robustness of the compatibility assessment framework. The outcomes of this
study offer valuable insights into corpus selection, feature representation,
and classification methods, and it can also serve as a beginning effort for
cross-corpus transfer learning.
- Abstract(参考訳): テキスト可読性評価は様々な分野の研究者から注目されている。
しかし、異なる研究グループが異なるコーパスを利用するため、コーパス互換性の探索の欠如が課題となっている。
そこで本研究では,CRCA (Cross-corpus text Readability Compatibility Assessment) という新たな評価フレームワークを提案する。
このフレームワークは、(1)コーパス:CEFR, CLEC, CLOTH, NES, OSP, RACEの3つの主要なコンポーネントを含んでいる。
言語的特徴,GloVe単語ベクトル表現,それらの融合特徴を抽出した。
2)分類モデル:機械学習手法(XGBoost, SVM)とディープラーニング手法(BiLSTM, Attention-BiLSTM)を用いた。
(3) 互換性メトリクス: rjsd、rrnss、ndcgメトリクス。
その結果,1)OSPは他のデータセットと大きく異なり,コーパス互換性の検証が可能であった。
2)コーパス間の適応効果、特徴表現、分類方法。
(3) 適合性評価フレームワークの堅牢性を検証した3つの指標の一貫性のある結果。
本研究の成果は,コーパス選択,特徴表現,分類方法に関する貴重な知見を提供するとともに,クロスコーパストランスファー学習の出発点ともなり得る。
関連論文リスト
- IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios [14.336896748878921]
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。
このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。
1)IRSCベンチマーク,2)SSCIとRCCIメトリクス,3)埋め込みモデルの言語間制限に関する洞察などです。
論文 参考訳(メタデータ) (2024-09-24T05:39:53Z) - Influence of various text embeddings on clustering performance in NLP [0.0]
クラスタリングアプローチは、テキストレビューを個々のグループにグループ化することで、正しい星の評価を緩和するために使用することができる。
本稿では,これらのレビューを表現するために,異なるテキスト埋め込みを選択するタスクについて検討するとともに,組込み選択がクラスタリングアルゴリズムの様々なクラスの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-04T20:53:19Z) - Evaluating BERT-based Scientific Relation Classifiers for Scholarly
Knowledge Graph Construction on Digital Library Collections [5.8962650619804755]
関連する科学的概念間の意味的関係を推測することは重要なステップである。
BERTベースの事前学習モデルは、自動関係分類のために広く研究されている。
既存の手法は主にクリーンテキストで評価される。
これらの制限に対処するため、私たちはOCRノイズの多いテキストを作成しました。
論文 参考訳(メタデータ) (2023-05-03T17:32:16Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - Generalizing Cross-Document Event Coreference Resolution Across Multiple
Corpora [63.429307282665704]
クロスドキュメントイベントコア参照解決(CDCR)は、文書の集合全体にわたってイベントの特定とクラスタ化を行う必要があるNLPタスクである。
CDCRは、下流のマルチドキュメントアプリケーションに利益をもたらすことを目標としているが、CDCRの適用による改善はまだ示されていない。
これまでのCDCRシステムは,1つのコーパスでのみ開発,トレーニング,テストが行われた。
論文 参考訳(メタデータ) (2020-11-24T17:45:03Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z) - Compass-aligned Distributional Embeddings for Studying Semantic
Differences across Corpora [14.993021283916008]
単語埋め込みを用いたクロスコーパス言語研究を支援するフレームワークを提案する。
CADEは私たちのフレームワークの中核的なコンポーネントであり、異なるコーパスから生成された埋め込みを整合させるという重要な問題を解決する。
実験の結果, CADEは, 競合するアプローチがいくつかあるタスクにおいて, 最先端あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-04-13T15:46:47Z) - Text Complexity Classification Based on Linguistic Information:
Application to Intelligent Tutoring of ESL [0.0]
本研究の目的は、英語を第二言語(ESL)学習者として教える文脈の中で、テキストの複雑さを識別できる分類器を構築することである。
ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。
その結果, 言語学的特徴は, 総合的な分類性能に優れていた。
論文 参考訳(メタデータ) (2020-01-07T02:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。