Fugu-MT 論文翻訳(概要): Cross-corpus Readability Compatibility Assessment for English Texts

論文の概要: Cross-corpus Readability Compatibility Assessment for English Texts

arxiv url: http://arxiv.org/abs/2306.09704v1
Date: Fri, 16 Jun 2023 09:15:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-19 14:30:10.896495
Title: Cross-corpus Readability Compatibility Assessment for English Texts
Title（参考訳）: 英語テキストのクロスコーポレーション可読性互換性評価
Authors: Zhenzhen Li, Han Ding, Shaohong Zhang
Abstract要約: 本稿では,新たな評価フレームワークであるクロスコーパステキスト可読性評価を提案する。このフレームワークは、コーパス:CEFR、CLEC、CLOTH、NES、OSP、RACEの3つの主要なコンポーネントを含んでいる。この結果,OSPは他のデータセットと大きく異なっていた。
参考スコア（独自算出の注目度）: 9.632087214875312
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text readability assessment has gained significant attention from researchers in various domains. However, the lack of exploration into corpus compatibility poses a challenge as different research groups utilize different corpora. In this study, we propose a novel evaluation framework, Cross-corpus text Readability Compatibility Assessment (CRCA), to address this issue. The framework encompasses three key components: (1) Corpus: CEFR, CLEC, CLOTH, NES, OSP, and RACE. Linguistic features, GloVe word vector representations, and their fusion features were extracted. (2) Classification models: Machine learning methods (XGBoost, SVM) and deep learning methods (BiLSTM, Attention-BiLSTM) were employed. (3) Compatibility metrics: RJSD, RRNSS, and NDCG metrics. Our findings revealed: (1) Validated corpus compatibility, with OSP standing out as significantly different from other datasets. (2) An adaptation effect among corpora, feature representations, and classification methods. (3) Consistent outcomes across the three metrics, validating the robustness of the compatibility assessment framework. The outcomes of this study offer valuable insights into corpus selection, feature representation, and classification methods, and it can also serve as a beginning effort for cross-corpus transfer learning.
Abstract（参考訳）: テキスト可読性評価は様々な分野の研究者から注目されている。しかし、異なる研究グループが異なるコーパスを利用するため、コーパス互換性の探索の欠如が課題となっている。そこで本研究では,CRCA (Cross-corpus text Readability Compatibility Assessment) という新たな評価フレームワークを提案する。このフレームワークは、(1)コーパス:CEFR, CLEC, CLOTH, NES, OSP, RACEの3つの主要なコンポーネントを含んでいる。言語的特徴,GloVe単語ベクトル表現,それらの融合特徴を抽出した。 2)分類モデル:機械学習手法(XGBoost, SVM)とディープラーニング手法(BiLSTM, Attention-BiLSTM)を用いた。 (3) 互換性メトリクス: rjsd、rrnss、ndcgメトリクス。その結果,1)OSPは他のデータセットと大きく異なり,コーパス互換性の検証が可能であった。 2)コーパス間の適応効果、特徴表現、分類方法。 (3) 適合性評価フレームワークの堅牢性を検証した3つの指標の一貫性のある結果。本研究の成果は,コーパス選択,特徴表現,分類方法に関する貴重な知見を提供するとともに,クロスコーパストランスファー学習の出発点ともなり得る。

関連論文リスト

Cross-Corpus Validation of Speech Emotion Recognition in Urdu using Domain-Knowledge Acoustic Features [0.9449650062296823]
本研究では, 未調査領域であるクロスコーパス環境でのUrdu SERについて検討した。我々は、モデル一般化をテストするために、3つの異なるUrdu感情音声データセット間のクロスコーパス評価フレームワークを用いる。その結果,UARはクロスコーパス評価を最大13%上回る結果となり,自己コーパス検証が性能を過大評価することがわかった。
論文参考訳（メタデータ） (2025-10-28T16:35:48Z)
IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios [14.336896748878921]
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。 1)IRSCベンチマーク,2)SSCIとRCCIメトリクス,3)埋め込みモデルの言語間制限に関する洞察などです。
論文参考訳（メタデータ） (2024-09-24T05:39:53Z)
CiteFusion: An Ensemble Framework for Citation Intent Classification Harnessing Dual-Model Binary Couples and SHAP Analyses [1.7812428873698407]
本研究は,多クラスCitation Intent Classificationタスクに対処するアンサンブルフレームワークであるCiteFusionを紹介する。 CiteFusionは最先端のパフォーマンスを実現し、Macro-F1スコアはSciCiteが89.60%、ACL-ARCが76.24%だった。我々は、SciCiteで開発されたCiteFusionモデルを利用して、引用意図を分類するWebベースのアプリケーションをリリースする。
論文参考訳（メタデータ） (2024-07-18T09:29:33Z)
Influence of various text embeddings on clustering performance in NLP [0.0]
クラスタリングアプローチは、テキストレビューを個々のグループにグループ化することで、正しい星の評価を緩和するために使用することができる。本稿では,これらのレビューを表現するために,異なるテキスト埋め込みを選択するタスクについて検討するとともに,組込み選択がクラスタリングアルゴリズムの様々なクラスの性能に与える影響について検討する。
論文参考訳（メタデータ） (2023-05-04T20:53:19Z)
Evaluating BERT-based Scientific Relation Classifiers for Scholarly Knowledge Graph Construction on Digital Library Collections [5.8962650619804755]
関連する科学的概念間の意味的関係を推測することは重要なステップである。 BERTベースの事前学習モデルは、自動関係分類のために広く研究されている。既存の手法は主にクリーンテキストで評価される。これらの制限に対処するため、私たちはOCRノイズの多いテキストを作成しました。
論文参考訳（メタデータ） (2023-05-03T17:32:16Z)
UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。 We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文参考訳（メタデータ） (2022-04-28T08:35:26Z)
Generalizing Cross-Document Event Coreference Resolution Across Multiple Corpora [63.429307282665704]
クロスドキュメントイベントコア参照解決(CDCR)は、文書の集合全体にわたってイベントの特定とクラスタ化を行う必要があるNLPタスクである。 CDCRは、下流のマルチドキュメントアプリケーションに利益をもたらすことを目標としているが、CDCRの適用による改善はまだ示されていない。これまでのCDCRシステムは,1つのコーパスでのみ開発,トレーニング,テストが行われた。
論文参考訳（メタデータ） (2020-11-24T17:45:03Z)
Weakly-Supervised Aspect-Based Sentiment Analysis via Joint Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。 We learn sentiment, aspects> joint topic embeddeds in the word embedding space。次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文参考訳（メタデータ） (2020-10-13T21:33:24Z)
Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-07T13:16:45Z)
Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文参考訳（メタデータ） (2020-07-19T07:24:45Z)
A Novel Attention-based Aggregation Function to Combine Vision and Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文参考訳（メタデータ） (2020-04-27T18:09:46Z)
Compass-aligned Distributional Embeddings for Studying Semantic Differences across Corpora [14.993021283916008]
単語埋め込みを用いたクロスコーパス言語研究を支援するフレームワークを提案する。 CADEは私たちのフレームワークの中核的なコンポーネントであり、異なるコーパスから生成された埋め込みを整合させるという重要な問題を解決する。実験の結果, CADEは, 競合するアプローチがいくつかあるタスクにおいて, 最先端あるいは優れた性能を達成できることが示唆された。
論文参考訳（メタデータ） (2020-04-13T15:46:47Z)
Text Complexity Classification Based on Linguistic Information: Application to Intelligent Tutoring of ESL [0.0]
本研究の目的は、英語を第二言語(ESL)学習者として教える文脈の中で、テキストの複雑さを識別できる分類器を構築することである。 ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。その結果, 言語学的特徴は, 総合的な分類性能に優れていた。
論文参考訳（メタデータ） (2020-01-07T02:42:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。