論文の概要: Using Full-Text Content to Characterize and Identify Best Seller Books
- arxiv url: http://arxiv.org/abs/2210.02334v2
- Date: Thu, 11 May 2023 12:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:47:55.312500
- Title: Using Full-Text Content to Characterize and Identify Best Seller Books
- Title(参考訳): 全文コンテンツを用いたベストセラー書籍の識別と識別
- Authors: Giovana D. da Silva, Filipi N. Silva, Henrique F. de Arruda, B\'arbara
C. e Souza, Luciano da F. Costa and Diego R. Amancio
- Abstract要約: 文学作品の観点から、本がベストセラーになるかどうかを予測するという課題を考察する。
従来のアプローチとは違って,書籍の全内容に焦点を合わせ,可視化と分類作業を検討した。
以上の結果から,本文の全内容のみを用いて,精度の高い書籍の成功を予測することは不可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.6442904501384817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artistic pieces can be studied from several perspectives, one example being
their reception among readers over time. In the present work, we approach this
interesting topic from the standpoint of literary works, particularly assessing
the task of predicting whether a book will become a best seller. Dissimilarly
from previous approaches, we focused on the full content of books and
considered visualization and classification tasks. We employed visualization
for the preliminary exploration of the data structure and properties, involving
SemAxis and linear discriminant analyses. Then, to obtain quantitative and more
objective results, we employed various classifiers. Such approaches were used
along with a dataset containing (i) books published from 1895 to 1924 and
consecrated as best sellers by the Publishers Weekly Bestseller Lists and (ii)
literary works published in the same period but not being mentioned in that
list. Our comparison of methods revealed that the best-achieved result -
combining a bag-of-words representation with a logistic regression classifier -
led to an average accuracy of 0.75 both for the leave-one-out and 10-fold
cross-validations. Such an outcome suggests that it is unfeasible to predict
the success of books with high accuracy using only the full content of the
texts. Nevertheless, our findings provide insights into the factors leading to
the relative success of a literary work.
- Abstract(参考訳): 芸術的な作品について、いくつかの視点から研究することができる。
本論文では,本書がベストセラーになるかどうかを予測するタスクを特に評価し,文学作品の観点からこの興味深い話題にアプローチする。
従来のアプローチと異なり,本の全文に着目し,可視化と分類の課題を検討した。
我々はSemAxisと線形判別分析を含むデータ構造と特性の予備的な探索に可視化を用いた。
そして, 定量的かつ客観的な結果を得るために, 様々な分類器を用いた。
このようなアプローチはデータセットとともに使用されました
(i)1895年(明治28年)から1924年(大正13年)に刊行され、出版社週刊ベストセラーリストからベストセラーに選定された書籍
(二)同時期に刊行されたものの、そのリストには記載されていない文学作品。
提案手法との比較により,単語のバッグ・オブ・ワード表現とロジスティック回帰分類を組み合わした最良の結果が平均精度0.75に向上したことが明らかとなった。
このような結果から,テキストの全文のみを用いて,精度の高い書籍の成功を予測することは不可能であることが示唆された。
しかし,本研究では,文学作品の相対的成功につながる要因について考察した。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - STONYBOOK: A System and Resource for Large-Scale Analysis of Novels [11.304581370821756]
本は歴史的に物語が伝えられる主要なメカニズムである。
我々は,小説の大規模分析のための資料コレクションを開発した。
論文 参考訳(メタデータ) (2023-11-06T23:46:40Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Whodunit? Learning to Contrast for Authorship Attribution [22.37948005237967]
著者の属性は、与えられたテキストの著者を特定するタスクである。
コントラスト学習と教師あり学習を組み合わせて,事前学習した言語表現を微調整する。
コントラXは、複数の人間と機械のオーサシップ属性のベンチマークで最先端の手法を推し進めていることを示す。
論文 参考訳(メタデータ) (2022-09-23T23:45:08Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Book Success Prediction with Pretrained Sentence Embeddings and
Readability Scores [8.37609145576126]
本論文では,事前学習文の埋め込みと各種可読性スコアを併用した本の成功予測モデルを提案する。
提案手法は, 最大6.4%のF1スコアポイントで, 高いベースラインを達成できる。
論文 参考訳(メタデータ) (2020-07-21T20:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。