論文の概要: Building a Manga Dataset "Manga109" with Annotations for Multimedia
Applications
- arxiv url: http://arxiv.org/abs/2005.04425v2
- Date: Tue, 12 May 2020 14:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 07:10:49.829219
- Title: Building a Manga Dataset "Manga109" with Annotations for Multimedia
Applications
- Title(参考訳): マルチメディアアプリケーション用アノテーションを用いたマンガデータセット"Manga109"の構築
- Authors: Kiyoharu Aizawa, Azuma Fujimoto, Atsushi Otsubo, Toru Ogawa, Yusuke
Matsui, Koki Tsubota, Hikaru Ikuta
- Abstract要約: 漫画109(まんが109)は、日本の漫画109冊(94編、21,142ページ)からなるデータセット。
このデータセットは多くのマンガイメージとアノテーションを提供しており、機械学習アルゴリズムでの使用には有益である。
本稿では、データセットの詳細を説明し、マルチメディア処理アプリケーションのいくつかの例を示す。
- 参考スコア(独自算出の注目度): 33.45306086398143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manga, or comics, which are a type of multimodal artwork, have been left
behind in the recent trend of deep learning applications because of the lack of
a proper dataset. Hence, we built Manga109, a dataset consisting of a variety
of 109 Japanese comic books (94 authors and 21,142 pages) and made it publicly
available by obtaining author permissions for academic use. We carefully
annotated the frames, speech texts, character faces, and character bodies; the
total number of annotations exceeds 500k. This dataset provides numerous manga
images and annotations, which will be beneficial for use in machine learning
algorithms and their evaluation. In addition to academic use, we obtained
further permission for a subset of the dataset for industrial use. In this
article, we describe the details of the dataset and present a few examples of
multimedia processing applications (detection, retrieval, and generation) that
apply existing deep learning methods and are made possible by the dataset.
- Abstract(参考訳): マンガ(manga)、あるいはマンガ(comics)は、マルチモーダルなアートワークの一種であり、適切なデータセットがないため、ディープラーニングアプリケーションの最新トレンドに残されている。
そこで我々は、109冊の日本漫画(94冊、21,142ページ)からなるデータセットmanga109を構築し、学術利用の許可を得て一般公開した。
フレーム, 音声テキスト, 文字顔, 文字体を慎重に注釈し, 注釈の総数は500万を超えている。
このデータセットは多くのマンガイメージとアノテーションを提供しており、機械学習アルゴリズムとその評価に有用である。
学術的利用に加えて,産業用データセットのサブセットに対するさらなる許可を得た。
本稿では、データセットの詳細を説明し、既存のディープラーニング手法を適用し、データセットによって実現可能なマルチメディア処理アプリケーション(検出、検索、生成)をいくつか紹介する。
関連論文リスト
- How Panel Layouts Define Manga: Insights from Visual Ablation Experiments [24.408092528259424]
本稿では,マンガ作品の視覚的特徴を,特にパネルレイアウトの特徴に着目して分析することを目的とする。
研究手法として,マンガのページイメージを入力として,マンガタイトル予測のための深層学習モデルをトレーニングした。
具体的には,ページイメージ情報をパネルフレームに限定してアブレーション研究を行い,パネルレイアウトの特性を解析した。
論文 参考訳(メタデータ) (2024-12-26T09:53:37Z) - A Library Perspective on Supervised Text Processing in Digital Libraries: An Investigation in the Biomedical Domain [3.9519587827662397]
本研究では,8つのバイオメディカルベンチマークを用いて,関係抽出とテキスト分類に焦点を当てた。
精度とアプリケーションコストのトレードオフを検討し、遠隔監視とChatGPT、LLama、Olmoといった大規模言語モデルを通じてデータ生成のトレーニングを行い、最終パイプラインの設計方法について論じる。
論文 参考訳(メタデータ) (2024-11-06T07:54:10Z) - Unlocking Comics: The AI4VA Dataset for Visual Understanding [62.345344799258804]
本稿では,1950年代のフレンチ・ベルジアン漫画に,深度推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
2つの異なる一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルを取り入れている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングの革新のための道も提供します。
論文 参考訳(メタデータ) (2024-10-27T14:27:05Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection [37.083051419659135]
Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。
距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。
実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T08:34:08Z) - DifferSketching: How Differently Do People Sketch 3D Objects? [78.44544977215918]
3Dオブジェクトの描画方法を理解するために,複数のスケッチデータセットが提案されている。
これらのデータセットは、しばしば小さなスケールで、オブジェクトやカテゴリの小さなセットをカバーする。
本研究では,空間的特徴と時間的特性の両面から,収集したデータをスケッチレベル,ストロークレベル,ピクセルレベルという3つのレベルで解析する。
論文 参考訳(メタデータ) (2022-09-19T06:52:18Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - Multi-Class Zero-Shot Learning for Artistic Material Recognition [68.8204255655161]
Zero-Shot Learning(ZSL)は、トランスファーラーニングの極端な形態であり、トレーニング段階で分類されるデータのラベル付き例は提供されない。
ここでは、作品の主題の英語記述と合成資料との関係を学習することにより、作品が作成された資料を特定するためのモデルについて概説する。
我々は、全く異なる博物館のデータセットから、作品に使われている素材を正確に識別できるモデルを作成する。
論文 参考訳(メタデータ) (2020-10-26T19:04:50Z) - KaoKore: A Pre-modern Japanese Art Facial Expression Dataset [8.987910033541239]
近代日本美術品から抽出された顔からなる新しいデータセットKaoKoreを提案する。
画像分類のためのデータセットとしての価値と、生成モデルを用いて探索する創造的で芸術的なデータセットとしての価値を実証する。
論文 参考訳(メタデータ) (2020-02-20T07:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。