論文の概要: Deep multi-modal networks for book genre classification based on its
cover
- arxiv url: http://arxiv.org/abs/2011.07658v1
- Date: Sun, 15 Nov 2020 23:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 06:56:49.418835
- Title: Deep multi-modal networks for book genre classification based on its
cover
- Title(参考訳): カバーに基づく書籍ジャンル分類のための深層マルチモーダルネットワーク
- Authors: Chandra Kundu, Lukun Zheng
- Abstract要約: カバーベースの書籍分類問題を解決するために,マルチモーダルなディープラーニングフレームワークを提案する。
本手法では,本表紙からテキストを自動的に抽出することで,余分なモダリティを付加する。
その結果、マルチモーダル・フレームワークは現在の最先端画像ベース・モデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Book covers are usually the very first impression to its readers and they
often convey important information about the content of the book. Book genre
classification based on its cover would be utterly beneficial to many modern
retrieval systems, considering that the complete digitization of books is an
extremely expensive task. At the same time, it is also an extremely challenging
task due to the following reasons: First, there exists a wide variety of book
genres, many of which are not concretely defined. Second, book covers, as
graphic designs, vary in many different ways such as colors, styles, textual
information, etc, even for books of the same genre. Third, book cover designs
may vary due to many external factors such as country, culture, target reader
populations, etc. With the growing competitiveness in the book industry, the
book cover designers and typographers push the cover designs to its limit in
the hope of attracting sales. The cover-based book classification systems
become a particularly exciting research topic in recent years. In this paper,
we propose a multi-modal deep learning framework to solve this problem. The
contribution of this paper is four-fold. First, our method adds an extra
modality by extracting texts automatically from the book covers. Second,
image-based and text-based, state-of-the-art models are evaluated thoroughly
for the task of book cover classification. Third, we develop an efficient and
salable multi-modal framework based on the images and texts shown on the covers
only. Fourth, a thorough analysis of the experimental results is given and
future works to improve the performance is suggested. The results show that the
multi-modal framework significantly outperforms the current state-of-the-art
image-based models. However, more efforts and resources are needed for this
classification task in order to reach a satisfactory level.
- Abstract(参考訳): 書籍の表紙は通常読者にとって最初の印象であり、しばしば本の内容に関する重要な情報を伝える。
書籍の完全なデジタル化が極めて高価な作業であることを考えると、その表紙に基づく書籍ジャンル分類は、多くの現代の検索システムにとって全く有益である。
同時に、下記の理由から、非常に困難な課題でもある:第一に、多種多様な書風があり、その多くは具体的には定義されていない。
第2に、同じジャンルの本であっても、グラフィックデザインとしての書籍カバーは、色、スタイル、テキスト情報など、さまざまな方法で異なる。
第3に、書籍の表紙デザインは、国、文化、読者のターゲットなど、多くの外部要因によって異なる可能性がある。
書籍業界における競争力の高まりに伴い、この本はデザイナーやタイポグラファーが売り上げを惹きつけることを期待してカバーデザインを限界まで押し上げた。
カバーベースの書籍分類システムは近年,特にエキサイティングな研究トピックとなっている。
本稿では,この問題を解決するためのマルチモーダルディープラーニングフレームワークを提案する。
この論文の貢献は4つある。
まず,本書カバーからテキストを自動的に抽出することにより,追加のモダリティを付加する。
第2に,書籍の表紙分類作業において,画像ベース,テキストベース,最先端モデルの評価を行った。
第3に,カバーにのみ表示される画像とテキストに基づいて,効率的かつ検証可能なマルチモーダルフレームワークを開発する。
第4に,実験結果を徹底的に分析し,性能向上に向けた今後の課題を提案する。
その結果、マルチモーダルフレームワークは、現在の最先端の画像ベースモデルを大きく上回っている。
しかしながら、この分類タスクが満足のいくレベルに達するためには、より多くの努力とリソースが必要である。
関連論文リスト
- Panel Transitions for Genre Analysis in Visual Narratives [1.320904960556043]
本稿では,漫画や漫画風のビジュアル・ナラティブに基づくジャンルのマルチモーダル分析を行うための新しいアプローチを提案する。
我々は、主観的ラベルをモデル化する際の既存の計算手法の限界と課題を強調した。
論文 参考訳(メタデータ) (2023-12-14T08:05:09Z) - Interleaving GANs with knowledge graphs to support design creativity for
book covers [77.34726150561087]
本書のカバードメインにGAN(Generative Adversarial Networks)を適用する。
我々は、GANを知識グラフとインターリーブして入力タイトルを変更し、任意のタイトルに対して複数のオプションを得る。
最後に、トレーニング期間中に得られた判別器を用いて、新しいタイトルで生成された最良の画像を選択する。
論文 参考訳(メタデータ) (2023-08-03T08:56:56Z) - Enhancing Textbooks with Visuals from the Web for Improved Learning [50.01434477801967]
本稿では,Webからの画像を用いた教科書を自動的に強化する視覚言語モデルの有効性について検討する。
数学、科学、社会科学、ビジネス分野における電子教科書のデータセットを収集します。
次に,テキスト画像マッチングタスクを設定し,テキスト画像の検索とテキストへの適切な割り当てを行う。
論文 参考訳(メタデータ) (2023-04-18T12:16:39Z) - Book Cover Synthesis from the Summary [0.0]
本書の要約と表紙との間には関連性があることから,人工知能を用いて書籍の表紙を作成する方法について検討する。
既存の書籍の要約やそのカバーイメージを多数含む英語書籍のデータセットを構築した。
本論文では,要約から書籍の表紙を生成するために,異なるテキスト・画像合成技術を適用し,その結果を示す。
論文 参考訳(メタデータ) (2022-11-03T20:43:40Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Using Full-Text Content to Characterize and Identify Best Seller Books [0.6442904501384817]
文学作品の観点から、本がベストセラーになるかどうかを予測するという課題を考察する。
従来のアプローチとは違って,書籍の全内容に焦点を合わせ,可視化と分類作業を検討した。
以上の結果から,本文の全内容のみを用いて,精度の高い書籍の成功を予測することは不可能であることが示唆された。
論文 参考訳(メタデータ) (2022-10-05T15:40:25Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Font Style that Fits an Image -- Font Generation Based on Image Context [7.646713951724013]
本論文では,書籍の表紙内のコンテキストに基づいて,書籍のタイトル画像を生成する手法を提案する。
本稿では,本表紙,目標位置マスク,所望の書籍タイトルを入力し,その表紙に適した文を出力するエンド・ツー・エンドニューラルネットワークを提案する。
提案手法は,定量的かつ定性的な結果によって,本文を効果的に生成できることを実証する。
論文 参考訳(メタデータ) (2021-05-19T01:53:04Z) - Deep Learning for Scene Classification: A Survey [48.57123373347695]
シーン分類は、コンピュータビジョンにおける長年の、根本的かつ挑戦的な問題である。
大規模データセットの出現と深層学習技術のルネッサンスは、シーン表現と分類の分野において顕著な進歩をもたらした。
本稿では,深層学習によるシーン分類における最近の成果を総合的に調査する。
論文 参考訳(メタデータ) (2021-01-26T03:06:50Z) - Deep learning for video game genre classification [2.66512000865131]
本稿では,この問題を解決するためのマルチモーダルディープラーニングフレームワークを提案する。
我々は、画像、記述テキスト、タイトルテキスト、ジャンル情報を含む21のジャンルから5万のビデオゲームからなる大規模なデータセットをコンパイルする。
その結果、マルチモーダルフレームワークは現在の最先端の画像ベースモデルやテキストベースモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T22:31:43Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。