論文の概要: LCP-RIT at SemEval-2021 Task 1: Exploring Linguistic Features for
Lexical Complexity Prediction
- arxiv url: http://arxiv.org/abs/2105.08780v1
- Date: Tue, 18 May 2021 18:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:54:33.364480
- Title: LCP-RIT at SemEval-2021 Task 1: Exploring Linguistic Features for
Lexical Complexity Prediction
- Title(参考訳): LCP-RIT at SemEval-2021 Task 1: Exploring Linguistic Features for Lexical Complexity Prediction
- Authors: Abhinandan Desai and Kai North and Marcos Zampieri and Christopher M.
Homan
- Abstract要約: 本稿では,チームLCP-RITによるSemEval-2021 Task 1: Lexical Complexity Prediction (LCP)の提出について述べる。
本システムでは,ロジスティック回帰と幅広い言語的特徴を用いて,このデータセットにおける単一単語の複雑さを予測する。
結果は平均絶対誤差,平均二乗誤差,ピアソン相関,スピアマン相関で評価した。
- 参考スコア(独自算出の注目度): 4.86331990243181
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes team LCP-RIT's submission to the SemEval-2021 Task 1:
Lexical Complexity Prediction (LCP). The task organizers provided participants
with an augmented version of CompLex (Shardlow et al., 2020), an English
multi-domain dataset in which words in context were annotated with respect to
their complexity using a five point Likert scale. Our system uses logistic
regression and a wide range of linguistic features (e.g. psycholinguistic
features, n-grams, word frequency, POS tags) to predict the complexity of
single words in this dataset. We analyze the impact of different linguistic
features in the classification performance and we evaluate the results in terms
of mean absolute error, mean squared error, Pearson correlation, and Spearman
correlation.
- Abstract(参考訳): 本稿では,チームLCP-RITによるSemEval-2021 Task 1: Lexical Complexity Prediction (LCP)の提出について述べる。
タスクオーガナイザは、コンプレックスの拡張バージョン(shardlow et al., 2020)を参加者に提供した。コンプレックスは英語のマルチドメインデータセットで、コンテキスト内の単語が5点のlikertスケールを使用して複雑さに対して注釈付けされたものだ。
我々のシステムはロジスティック回帰と幅広い言語的特徴(例)を用いる。
心理言語学的な特徴、n-gram、単語頻度、posタグ) このデータセットにおける単一単語の複雑さを予測する。
言語特性の違いが分類性能に与える影響を分析し,平均絶対誤差,平均二乗誤差,ピアソン相関,スピアマン相関の観点から評価した。
関連論文リスト
- Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification [0.27998963147546146]
複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIはコンテキストに大きく依存するが、その困難さは利用可能なデータセットの不足によって増大する。
対象文字とコンテキスト表現を改善するために,ドメイン適応に基づくCWIタスクのための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-15T13:21:02Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - UPB at SemEval-2021 Task 1: Combining Deep Learning and Hand-Crafted
Features for Lexical Complexity Prediction [0.7197592390105455]
本稿では,SemEval-2021 Task 1: Lexical Complexity Prediction competitionについて述べる。
私たちの結果は、第1および第2サブタスクの競争で得られたトップスコアよりもわずか5.46%と6.5%低いです。
論文 参考訳(メタデータ) (2021-04-14T17:05:46Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。