Fugu-MT 論文翻訳(概要): Using Full-Text Content to Characterize and Identify Best Seller Books

論文の概要: Using Full-Text Content to Characterize and Identify Best Seller Books

arxiv url: http://arxiv.org/abs/2210.02334v1
Date: Wed, 5 Oct 2022 15:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 12:48:49.267655
Title: Using Full-Text Content to Characterize and Identify Best Seller Books
Title（参考訳）: 全文コンテンツを用いたベストセラー書籍の識別と識別
Authors: Giovana D. da Silva, Filipi N. Silva, Henrique F. de Arruda, B\'arbara C. e Souza, Luciano da F. Costa and Diego R. Amancio
Abstract要約: 私たちは本がベストセラーになるかどうかを予測するタスクを考えます。従来のアプローチとは違って,書籍の全内容に焦点を合わせ,可視化と分類作業を検討した。
参考スコア（独自算出の注目度）: 0.6442904501384817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artistic pieces can be studied from several perspectives, one example being their reception among readers over time. In the present work, we approach this interesting topic from the standpoint of literary works, particularly assessing the task of predicting whether a book will become a best seller. Dissimilarly from previous approaches, we focused on the full content of books and considered visualization and classification tasks. We employed visualization for the preliminary exploration of the data structure and properties, involving SemAxis and linear discriminant analyses. Then, to obtain quantitative and more objective results, we employed various classifiers. Such approaches were used along with a dataset containing (i) books published from 1895 to 1924 and consecrated as best sellers by the \emph{Publishers Weekly Bestseller Lists} and (ii) literary works published in the same period but not being mentioned in that list. Our comparison of methods revealed that the best-achieved result - combining a bag-of-words representation with a logistic regression classifier - led to an average accuracy of 0.75 both for the leave-one-out and 10-fold cross-validations. Such an outcome suggests that it is unfeasible to predict the success of books with high accuracy using only the full content of the texts. Nevertheless, our findings provide insights into the factors leading to the relative success of a literary work.
Abstract（参考訳）: 芸術的な作品について、いくつかの視点から研究することができる。本論文では,本書がベストセラーになるかどうかを予測するタスクを特に評価し,文学作品の観点からこの興味深い話題にアプローチする。従来のアプローチと異なり,本の全文に着目し,可視化と分類の課題を検討した。我々はSemAxisと線形判別分析を含むデータ構造と特性の予備的な探索に可視化を用いた。そして, 定量的かつ客観的な結果を得るために, 様々な分類器を用いた。このようなアプローチはデータセットとともに使用されました (i)1895年(明治28年)から1924年(大正13年)に刊行され、emph{publishers weekly bestseller list}によってベストセラーとして表彰され、及び (二)同時期に刊行されたものの、そのリストには記載されていない文学作品。提案手法との比較により,単語のバッグ・オブ・ワード表現とロジスティック回帰分類を組み合わした最良の結果が平均精度0.75に向上したことが明らかとなった。このような結果から,テキストの全文のみを用いて,精度の高い書籍の成功を予測することは不可能であることが示唆された。しかし,本研究では,文学作品の相対的成功につながる要因について考察した。

関連論文リスト

GUM-SAGE: A Novel Dataset and Approach for Graded Entity Salience Prediction [12.172254885579706]
格付けされたエンティティサリエンス(英語版)は、テキストにおける相対的な重要性を反映したエンティティスコアを割り当てる。両アプローチの強みを組み合わせた,格付けされたエンティティ・サリエンスのための新しいアプローチを提案する。提案手法は,人間の要約やアライメントに基づくスコアとの相関が強く,既存の手法よりも優れていた。
論文参考訳（メタデータ） (2025-04-15T01:26:14Z)
Comprehensive Manuscript Assessment with Text Summarization Using 69707 articles [10.943765373420135]
我々は69707の科学論文から得られた、非常に包括的で大規模な情報のデータセットをキュレートするために、Scopusを利用する。本稿では,原稿から抽出した意味的特徴と論文メタデータを活用する,インパクトベース分類タスクの深層学習手法を提案する。
論文参考訳（メタデータ） (2025-03-26T07:56:15Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文参考訳（メタデータ） (2024-10-14T10:55:58Z)
LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文参考訳（メタデータ） (2024-05-16T15:02:24Z)
STONYBOOK: A System and Resource for Large-Scale Analysis of Novels [11.304581370821756]
本は歴史的に物語が伝えられる主要なメカニズムである。我々は,小説の大規模分析のための資料コレクションを開発した。
論文参考訳（メタデータ） (2023-11-06T23:46:40Z)
PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
Whodunit? Learning to Contrast for Authorship Attribution [22.37948005237967]
著者の属性は、与えられたテキストの著者を特定するタスクである。コントラスト学習と教師あり学習を組み合わせて,事前学習した言語表現を微調整する。コントラXは、複数の人間と機械のオーサシップ属性のベンチマークで最先端の手法を推し進めていることを示す。
論文参考訳（メタデータ） (2022-09-23T23:45:08Z)
Weakly-Supervised Aspect-Based Sentiment Analysis via Joint Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。 We learn sentiment, aspects> joint topic embeddeds in the word embedding space。次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文参考訳（メタデータ） (2020-10-13T21:33:24Z)
A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文参考訳（メタデータ） (2020-08-02T00:09:03Z)
Book Success Prediction with Pretrained Sentence Embeddings and Readability Scores [8.37609145576126]
本論文では,事前学習文の埋め込みと各種可読性スコアを併用した本の成功予測モデルを提案する。提案手法は, 最大6.4%のF1スコアポイントで, 高いベースラインを達成できる。
論文参考訳（メタデータ） (2020-07-21T20:11:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。