論文の概要: A Comparative Study of Feature Types for Age-Based Text Classification
- arxiv url: http://arxiv.org/abs/2009.11898v1
- Date: Thu, 24 Sep 2020 18:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:32:34.056692
- Title: A Comparative Study of Feature Types for Age-Based Text Classification
- Title(参考訳): 年齢別テキスト分類における特徴型の比較検討
- Authors: Anna Glazkova, Yury Egorov, Maksim Glazkov
- Abstract要約: 年齢によるフィクションテキストの分類作業における言語的特徴の多種多様性の比較を行った。
その結果,文書レベルでテキストを記述する特徴は,機械学習モデルの品質を著しく向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 3.867363075280544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to automatically determine the age audience of a novel provides
many opportunities for the development of information retrieval tools. Firstly,
developers of book recommendation systems and electronic libraries may be
interested in filtering texts by the age of the most likely readers. Further,
parents may want to select literature for children. Finally, it will be useful
for writers and publishers to determine which features influence whether the
texts are suitable for children. In this article, we compare the empirical
effectiveness of various types of linguistic features for the task of age-based
classification of fiction texts. For this purpose, we collected a text corpus
of book previews labeled with one of two categories -- children's or adult. We
evaluated the following types of features: readability indices, sentiment,
lexical, grammatical and general features, and publishing attributes. The
results obtained show that the features describing the text at the document
level can significantly increase the quality of machine learning models.
- Abstract(参考訳): 小説の年齢のオーディエンスを自動的に決定する能力は、情報検索ツールの開発に多くの機会をもたらす。
まず、書籍レコメンデーションシステムと電子ライブラリーの開発者は、最も可能性の高い読者の年齢までにテキストをフィルタリングすることに興味があるかもしれない。
また、親は子ども向けの文学を選択できる。
最後に、著者や出版社が、テキストが子供に適しているかどうかにどの特徴が影響するかを決定するのに役立つだろう。
本稿では, 年齢によるフィクションテキストの分類作業における, 様々な言語的特徴の実証的有効性を比較する。
そこで我々は,子どもと大人の2つのカテゴリーの1つをラベル付けした本プレビューのテキストコーパスを収集した。
我々は,可読性指標,感情,語彙的,文法的,一般的特徴,属性のパブリッシングといった特徴を評価した。
その結果,文書レベルでテキストを記述する特徴は,機械学習モデルの品質を著しく向上させることができることがわかった。
関連論文リスト
- BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - TextAge: A Curated and Diverse Text Dataset for Age Classification [1.4843200329335289]
年齢に関連する言語パターンは、言語の違いを理解し、年齢に合ったコミュニケーション戦略を開発する上で重要な役割を担っている。
著者の年齢・年齢グループに文章をマッピングするテキストデータセットであるTextAgeを提示する。
データセットは、データ品質と一貫性を保証するために、広範囲なクリーニングと前処理を行う。
論文 参考訳(メタデータ) (2024-05-02T23:37:03Z) - Textual Stylistic Variation: Choices, Genres and Individuals [0.8057441774248633]
この章では、テキストコレクションのスタイリスティックな変動の統計処理のためのより情報的なターゲットメトリクスを論じている。
本章ではジャンルごとの変奏について論じ、個々の選択による変奏と対比する。
論文 参考訳(メタデータ) (2022-05-01T16:39:49Z) - A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。
まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文 参考訳(メタデータ) (2022-02-02T16:18:41Z) - Latin writing styles analysis with Machine Learning: New approach to old
questions [0.0]
中世のテキストは、世代から世代までのコミュニケーション手段を用いて、心から学び、普及した。
ラテン語で書かれた文学の特定の構成を考慮に入れれば、特定の物語テキストの親しみやすい情報源の確率パターンを探索し、示すことができる。
論文 参考訳(メタデータ) (2021-09-01T20:21:45Z) - Readability Research: An Interdisciplinary Approach [62.03595526230364]
我々は,可読性研究の包括的枠組みである可読性研究のための強固な基盤を提供することを目指している。
可読性(Readability)とは、ページから読み手への情報フローに影響を与える視覚情報設計の側面を指す。
これらのアスペクトはオンデマンドで修正可能で、読み手がテキストから処理し、意味を導き出すのが簡単になる。
論文 参考訳(メタデータ) (2021-07-20T16:52:17Z) - Using Machine Learning and Natural Language Processing Techniques to
Analyze and Support Moderation of Student Book Discussions [0.0]
IMapBookプロジェクトは、小学生のリテラシー向上と理解能力向上を目的として、インタラクティブな電子書籍を提示し、中途半端な本議論に参加することを目的としている。
本研究の目的は、メッセージ分類に対する機械学習ベースのアプローチを開発し、介入の必要性を議論モデレーターに自動的に通知し、進行中の議論に関する他の有用な情報を収集することである。
論文 参考訳(メタデータ) (2020-11-23T20:33:09Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。