論文の概要: Using Full-Text Content to Characterize and Identify Best Seller Books
- arxiv url: http://arxiv.org/abs/2210.02334v1
- Date: Wed, 5 Oct 2022 15:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:48:49.267655
- Title: Using Full-Text Content to Characterize and Identify Best Seller Books
- Title(参考訳): 全文コンテンツを用いたベストセラー書籍の識別と識別
- Authors: Giovana D. da Silva, Filipi N. Silva, Henrique F. de Arruda, B\'arbara
C. e Souza, Luciano da F. Costa and Diego R. Amancio
- Abstract要約: 私たちは本がベストセラーになるかどうかを予測するタスクを考えます。
従来のアプローチとは違って,書籍の全内容に焦点を合わせ,可視化と分類作業を検討した。
- 参考スコア(独自算出の注目度): 0.6442904501384817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artistic pieces can be studied from several perspectives, one example being
their reception among readers over time. In the present work, we approach this
interesting topic from the standpoint of literary works, particularly assessing
the task of predicting whether a book will become a best seller. Dissimilarly
from previous approaches, we focused on the full content of books and
considered visualization and classification tasks. We employed visualization
for the preliminary exploration of the data structure and properties, involving
SemAxis and linear discriminant analyses. Then, to obtain quantitative and more
objective results, we employed various classifiers. Such approaches were used
along with a dataset containing (i) books published from 1895 to 1924 and
consecrated as best sellers by the \emph{Publishers Weekly Bestseller Lists}
and (ii) literary works published in the same period but not being mentioned in
that list. Our comparison of methods revealed that the best-achieved result -
combining a bag-of-words representation with a logistic regression classifier -
led to an average accuracy of 0.75 both for the leave-one-out and 10-fold
cross-validations. Such an outcome suggests that it is unfeasible to predict
the success of books with high accuracy using only the full content of the
texts. Nevertheless, our findings provide insights into the factors leading to
the relative success of a literary work.
- Abstract(参考訳): 芸術的な作品について、いくつかの視点から研究することができる。
本論文では,本書がベストセラーになるかどうかを予測するタスクを特に評価し,文学作品の観点からこの興味深い話題にアプローチする。
従来のアプローチと異なり,本の全文に着目し,可視化と分類の課題を検討した。
我々はSemAxisと線形判別分析を含むデータ構造と特性の予備的な探索に可視化を用いた。
そして, 定量的かつ客観的な結果を得るために, 様々な分類器を用いた。
このようなアプローチはデータセットとともに使用されました
(i)1895年(明治28年)から1924年(大正13年)に刊行され、emph{publishers weekly bestseller list}によってベストセラーとして表彰され、及び
(二)同時期に刊行されたものの、そのリストには記載されていない文学作品。
提案手法との比較により,単語のバッグ・オブ・ワード表現とロジスティック回帰分類を組み合わした最良の結果が平均精度0.75に向上したことが明らかとなった。
このような結果から,テキストの全文のみを用いて,精度の高い書籍の成功を予測することは不可能であることが示唆された。
しかし,本研究では,文学作品の相対的成功につながる要因について考察した。
関連論文リスト
- STONYBOOK: A System and Resource for Large-Scale Analysis of Novels [11.304581370821756]
本は歴史的に物語が伝えられる主要なメカニズムである。
我々は,小説の大規模分析のための資料コレクションを開発した。
論文 参考訳(メタデータ) (2023-11-06T23:46:40Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Whodunit? Learning to Contrast for Authorship Attribution [22.37948005237967]
著者の属性は、与えられたテキストの著者を特定するタスクである。
コントラスト学習と教師あり学習を組み合わせて,事前学習した言語表現を微調整する。
コントラXは、複数の人間と機械のオーサシップ属性のベンチマークで最先端の手法を推し進めていることを示す。
論文 参考訳(メタデータ) (2022-09-23T23:45:08Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Modeling Social Readers: Novel Tools for Addressing Reception from
Online Book Reviews [0.0]
5つの人気小説のレビューのコーパスを使用して、小説のメインストーリーラインの読者の蒸留を研究します。
無限語彙ネットワークの研究に3つの重要な貢献をしている。
本稿では、レビューから集約された部分軌跡に基づいてイベントのコンセンサスシーケンスを生成する新しいシーケンシングアルゴリズムREV2SEQを提案する。
論文 参考訳(メタデータ) (2021-05-03T20:10:14Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Book Success Prediction with Pretrained Sentence Embeddings and
Readability Scores [8.37609145576126]
本論文では,事前学習文の埋め込みと各種可読性スコアを併用した本の成功予測モデルを提案する。
提案手法は, 最大6.4%のF1スコアポイントで, 高いベースラインを達成できる。
論文 参考訳(メタデータ) (2020-07-21T20:11:18Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。