論文の概要: How Panel Layouts Define Manga: Insights from Visual Ablation Experiments
- arxiv url: http://arxiv.org/abs/2412.19141v1
- Date: Thu, 26 Dec 2024 09:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:28.773664
- Title: How Panel Layouts Define Manga: Insights from Visual Ablation Experiments
- Title(参考訳): Panel Layoutsはどのようにマンガを定義するか:ビジュアルアブレーション実験からの洞察
- Authors: Siyuan Feng, Teruya Yoshinaga, Katsuhiko Hayashi, Koki Washio, Hidetaka Kamigaito,
- Abstract要約: 本稿では,マンガ作品の視覚的特徴を,特にパネルレイアウトの特徴に着目して分析することを目的とする。
研究手法として,マンガのページイメージを入力として,マンガタイトル予測のための深層学習モデルをトレーニングした。
具体的には,ページイメージ情報をパネルフレームに限定してアブレーション研究を行い,パネルレイアウトの特性を解析した。
- 参考スコア(独自算出の注目度): 24.408092528259424
- License:
- Abstract: Today, manga has gained worldwide popularity. However, the question of how various elements of manga, such as characters, text, and panel layouts, reflect the uniqueness of a particular work, or even define it, remains an unexplored area. In this paper, we aim to quantitatively and qualitatively analyze the visual characteristics of manga works, with a particular focus on panel layout features. As a research method, we used facing page images of manga as input to train a deep learning model for predicting manga titles, examining classification accuracy to quantitatively analyze these features. Specifically, we conducted ablation studies by limiting page image information to panel frames to analyze the characteristics of panel layouts. Through a series of quantitative experiments using all 104 works, 12 genres, and 10,122 facing page images from the Manga109 dataset, as well as qualitative analysis using Grad-CAM, our study demonstrates that the uniqueness of manga works is strongly reflected in their panel layouts.
- Abstract(参考訳): 今日、マンガは世界中で人気を博している。
しかし、文字、テキスト、パネルレイアウトなどの漫画の様々な要素が、特定の作品の独特さを反映しているか、あるいはそれを定義しているのかといった問題は未解明領域のままである。
本稿では,マンガ作品の視覚的特徴を定量的に定性的に分析し,特にパネルレイアウトの特徴に着目した。
研究手法として,マンガのページイメージを入力として,マンガのタイトル予測のための深層学習モデルを訓練し,分類精度を検証し,これらの特徴を定量的に分析した。
具体的には,ページイメージ情報をパネルフレームに限定してアブレーション研究を行い,パネルレイアウトの特性を解析した。
本研究は,マンガ109データセットの104作品,12ジャンル,10,122面のページイメージとGrad-CAMを用いた定性解析を用いて,マンガ作品の独特さがパネルレイアウトに強く反映されていることを示す。
関連論文リスト
- MangaUB: A Manga Understanding Benchmark for Large Multimodal Models [25.63892470012361]
漫画(まんが)は、物語を伝えるための文体と文体を組み合わせた人気メディアである。
近年、現代の大規模マルチモーダルモデル(LMM)の適応性は、より一般的なアプローチの可能性を示している。
MangaUBは、単一のパネルに表示されるコンテンツの認識と理解を評価するとともに、複数のパネルにまたがって伝達されるように設計されている。
論文 参考訳(メタデータ) (2024-07-26T18:21:30Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - Scenimefy: Learning to Craft Anime Scene via Semi-Supervised
Image-to-Image Translation [75.91455714614966]
そこで我々は,新しい半教師付き画像-画像間翻訳フレームワークであるScenimefyを提案する。
提案手法は,構造に一貫性のある擬似ペアデータによる学習を導く。
スタイル化と細部を改善するために、パッチワイドのコントラストスタイルロスが導入されている。
論文 参考訳(メタデータ) (2023-08-24T17:59:50Z) - Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection [37.083051419659135]
Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。
距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。
実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T08:34:08Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Unsupervised Manga Character Re-identification via Face-body and
Spatial-temporal Associated Clustering [21.696847342192072]
マンガの芸術的表現と様式的制限は、再同定問題に多くの課題をもたらす。
コンテンツに関連するいくつかの特徴がクラスタリングに役立つという考えから着想を得て,顔の身体と空間的関連クラスタリング法を提案する。
フェースボディ結合モジュールにおいて、アート創造における誇張や変形などの問題を解決するために、フェースボディグラフを構築する。
時空間関係補正モジュールにおいて,文字の出現特徴を分析し,時間空間関連三重項損失を設計し,クラスタリングを微調整する。
論文 参考訳(メタデータ) (2022-04-10T07:28:41Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Building a Manga Dataset "Manga109" with Annotations for Multimedia
Applications [33.45306086398143]
漫画109(まんが109)は、日本の漫画109冊(94編、21,142ページ)からなるデータセット。
このデータセットは多くのマンガイメージとアノテーションを提供しており、機械学習アルゴリズムでの使用には有益である。
本稿では、データセットの詳細を説明し、マルチメディア処理アプリケーションのいくつかの例を示す。
論文 参考訳(メタデータ) (2020-05-09T12:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。