論文の概要: Building a Manga Dataset "Manga109" with Annotations for Multimedia
Applications
- arxiv url: http://arxiv.org/abs/2005.04425v2
- Date: Tue, 12 May 2020 14:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 07:10:49.829219
- Title: Building a Manga Dataset "Manga109" with Annotations for Multimedia
Applications
- Title(参考訳): マルチメディアアプリケーション用アノテーションを用いたマンガデータセット"Manga109"の構築
- Authors: Kiyoharu Aizawa, Azuma Fujimoto, Atsushi Otsubo, Toru Ogawa, Yusuke
Matsui, Koki Tsubota, Hikaru Ikuta
- Abstract要約: 漫画109(まんが109)は、日本の漫画109冊(94編、21,142ページ)からなるデータセット。
このデータセットは多くのマンガイメージとアノテーションを提供しており、機械学習アルゴリズムでの使用には有益である。
本稿では、データセットの詳細を説明し、マルチメディア処理アプリケーションのいくつかの例を示す。
- 参考スコア(独自算出の注目度): 33.45306086398143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manga, or comics, which are a type of multimodal artwork, have been left
behind in the recent trend of deep learning applications because of the lack of
a proper dataset. Hence, we built Manga109, a dataset consisting of a variety
of 109 Japanese comic books (94 authors and 21,142 pages) and made it publicly
available by obtaining author permissions for academic use. We carefully
annotated the frames, speech texts, character faces, and character bodies; the
total number of annotations exceeds 500k. This dataset provides numerous manga
images and annotations, which will be beneficial for use in machine learning
algorithms and their evaluation. In addition to academic use, we obtained
further permission for a subset of the dataset for industrial use. In this
article, we describe the details of the dataset and present a few examples of
multimedia processing applications (detection, retrieval, and generation) that
apply existing deep learning methods and are made possible by the dataset.
- Abstract(参考訳): マンガ(manga)、あるいはマンガ(comics)は、マルチモーダルなアートワークの一種であり、適切なデータセットがないため、ディープラーニングアプリケーションの最新トレンドに残されている。
そこで我々は、109冊の日本漫画(94冊、21,142ページ)からなるデータセットmanga109を構築し、学術利用の許可を得て一般公開した。
フレーム, 音声テキスト, 文字顔, 文字体を慎重に注釈し, 注釈の総数は500万を超えている。
このデータセットは多くのマンガイメージとアノテーションを提供しており、機械学習アルゴリズムとその評価に有用である。
学術的利用に加えて,産業用データセットのサブセットに対するさらなる許可を得た。
本稿では、データセットの詳細を説明し、既存のディープラーニング手法を適用し、データセットによって実現可能なマルチメディア処理アプリケーション(検出、検索、生成)をいくつか紹介する。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [65.61789642291636]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - Manga109Dialog A Large-scale Dialogue Dataset for Comics Speaker
Detection [42.640440307164624]
Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。
距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。
実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T08:34:08Z) - DifferSketching: How Differently Do People Sketch 3D Objects? [78.44544977215918]
3Dオブジェクトの描画方法を理解するために,複数のスケッチデータセットが提案されている。
これらのデータセットは、しばしば小さなスケールで、オブジェクトやカテゴリの小さなセットをカバーする。
本研究では,空間的特徴と時間的特性の両面から,収集したデータをスケッチレベル,ストロークレベル,ピクセルレベルという3つのレベルで解析する。
論文 参考訳(メタデータ) (2022-09-19T06:52:18Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - How Learners Sketch Data Stories [0.0]
本稿では,参加者が作成した101個のデータスケッチのコーパスを,非公式および形式的設定でガイド付き学習活動の一部として紹介し,分類する。
視覚的エンコーディングや表現,ストーリ構造に関連する12のメトリクスに対して,各スケッチを手作業でコーディングします。
論文 参考訳(メタデータ) (2021-08-10T02:00:30Z) - Multi-Class Zero-Shot Learning for Artistic Material Recognition [68.8204255655161]
Zero-Shot Learning(ZSL)は、トランスファーラーニングの極端な形態であり、トレーニング段階で分類されるデータのラベル付き例は提供されない。
ここでは、作品の主題の英語記述と合成資料との関係を学習することにより、作品が作成された資料を特定するためのモデルについて概説する。
我々は、全く異なる博物館のデータセットから、作品に使われている素材を正確に識別できるモデルを作成する。
論文 参考訳(メタデータ) (2020-10-26T19:04:50Z) - A Large Dataset of Historical Japanese Documents with Complex Layouts [5.343406649012619]
HJDatasetは、複雑なレイアウトを持つ日本古文書の大規模なデータセットである。
レイアウト要素アノテーションには7つのタイプがある。
レイアウト要素を抽出する半ルール法を開発し、その結果を人間の検査員が確認する。
論文 参考訳(メタデータ) (2020-04-18T18:38:25Z) - KaoKore: A Pre-modern Japanese Art Facial Expression Dataset [8.987910033541239]
近代日本美術品から抽出された顔からなる新しいデータセットKaoKoreを提案する。
画像分類のためのデータセットとしての価値と、生成モデルを用いて探索する創造的で芸術的なデータセットとしての価値を実証する。
論文 参考訳(メタデータ) (2020-02-20T07:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。