論文の概要: Linguistic Features for Readability Assessment
- arxiv url: http://arxiv.org/abs/2006.00377v1
- Date: Sat, 30 May 2020 22:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 17:32:50.117838
- Title: Linguistic Features for Readability Assessment
- Title(参考訳): 可読性評価のための言語特徴
- Authors: Tovly Deutsch, Masoud Jasbi, Stuart Shieber
- Abstract要約: 言語的に動機づけられた特徴を持つディープラーニングモデルを強化することで、パフォーマンスがさらに向上するかどうかは不明だ。
十分なトレーニングデータから、言語的に動機づけられた特徴を持つディープラーニングモデルを増強しても、最先端のパフォーマンスは向上しないことがわかった。
本研究は,現在最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表現しているという仮説の予備的証拠を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Readability assessment aims to automatically classify text by the level
appropriate for learning readers. Traditional approaches to this task utilize a
variety of linguistically motivated features paired with simple machine
learning models. More recent methods have improved performance by discarding
these features and utilizing deep learning models. However, it is unknown
whether augmenting deep learning models with linguistically motivated features
would improve performance further. This paper combines these two approaches
with the goal of improving overall model performance and addressing this
question. Evaluating on two large readability corpora, we find that, given
sufficient training data, augmenting deep learning models with linguistically
motivated features does not improve state-of-the-art performance. Our results
provide preliminary evidence for the hypothesis that the state-of-the-art deep
learning models represent linguistic features of the text related to
readability. Future research on the nature of representations formed in these
models can shed light on the learned features and their relations to
linguistically motivated ones hypothesized in traditional approaches.
- Abstract(参考訳): 可読性評価は、学習者に適したレベルで自動的にテキストを分類することを目的としている。
このタスクに対する従来のアプローチでは、シンプルな機械学習モデルと組み合わせた言語的動機づけのあるさまざまな機能を利用する。
近年の手法では,これらの特徴を捨て,深層学習モデルを活用することで性能が向上している。
しかし、言語的に動機づけられた特徴を持つディープラーニングモデルの拡張がパフォーマンスをさらに向上するかどうかは不明である。
本稿では,これら2つのアプローチと,モデル全体のパフォーマンス向上を目標とし,この問題に対処する。
2つの大きな可読性コーパスを評価することで、十分なトレーニングデータから、言語的に動機付けられた特徴を持つディープラーニングモデルを増強しても、最先端の性能は向上しないことがわかった。
本研究は,最先端のディープラーニングモデルが可読性に関連するテキストの言語的特徴を表すという仮説の予備的証拠を提供する。
これらのモデルで形成される表現の性質に関する将来の研究は、伝統的なアプローチで仮定された言語的動機づけのある表現に対する学習された特徴とそれらの関係に光を当てることができる。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2023-06-21T11:24:41Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Automated Speech Scoring System Under The Lens: Evaluating and
interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。
まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。
比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:28:58Z) - Learning Syntactic Dense Embedding with Correlation Graph for Automatic
Readability Assessment [17.882688516249058]
本稿では,言語的特徴に基づく構文的密埋め込みを学習することにより,言語的特徴をニューラルネットワークモデルに組み込むことを提案する。
提案手法はBERTのみのモデルを補完し,自動可読性評価のための性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-09T07:26:17Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。