論文の概要: Region-Wise Correspondence Prediction between Manga Line Art Images
- arxiv url: http://arxiv.org/abs/2509.09501v1
- Date: Thu, 11 Sep 2025 14:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.42649
- Title: Region-Wise Correspondence Prediction between Manga Line Art Images
- Title(参考訳): マンガラインアート画像間の領域幅対応予測
- Authors: Yingxuan Li, Jiafeng Mao, Qianru Qiu, Yusuke Matsui,
- Abstract要約: 本稿では, 生マンガラインアート画像間の地域的対応の予測という, 斬新で実践的な課題を紹介する。
画像間のパッチレベルの類似性を学習するTransformerベースのフレームワークを提案する。
次に、エッジ対応クラスタリングと領域マッチングアルゴリズムを適用し、パッチレベルの予測をコヒーレントな領域レベルの対応に変換する。
- 参考スコア(独自算出の注目度): 19.50212867795051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding region-wise correspondence between manga line art images is a fundamental task in manga processing, enabling downstream applications such as automatic line art colorization and in-between frame generation. However, this task remains largely unexplored, especially in realistic scenarios without pre-existing segmentation or annotations. In this paper, we introduce a novel and practical task: predicting region-wise correspondence between raw manga line art images without any pre-existing labels or masks. To tackle this problem, we divide each line art image into a set of patches and propose a Transformer-based framework that learns patch-level similarities within and across images. We then apply edge-aware clustering and a region matching algorithm to convert patch-level predictions into coherent region-level correspondences. To support training and evaluation, we develop an automatic annotation pipeline and manually refine a subset of the data to construct benchmark datasets. Experiments on multiple datasets demonstrate that our method achieves high patch-level accuracy (e.g., 96.34%) and generates consistent region-level correspondences, highlighting its potential for real-world manga applications.
- Abstract(参考訳): マンガラインアート画像間の領域対応を理解することは,マンガ処理の基本課題であり,自動ラインアートカラー化やフレーム間のフレーム生成といった下流の応用を可能にする。
しかし、このタスクは、特に既存のセグメンテーションやアノテーションなしで現実的なシナリオにおいて、ほとんど探索されていないままである。
本稿では,既存のラベルやマスクを使わずに,生マンガラインアート画像間の地域的対応を予測するという,新しい実践的課題を紹介する。
この問題に対処するため,各ラインアートイメージをパッチセットに分割し,画像間のパッチレベルの類似性を学習するTransformerベースのフレームワークを提案する。
次に、エッジ対応クラスタリングと領域マッチングアルゴリズムを適用し、パッチレベルの予測をコヒーレントな領域レベルの対応に変換する。
トレーニングと評価を支援するため,自動アノテーションパイプラインを開発し,データのサブセットを手作業で洗練してベンチマークデータセットを構築する。
複数のデータセットに対する実験により,本手法は高いパッチレベルの精度(例:96.34%)を実現し,一貫した領域レベルの対応を生成し,実世界のマンガアプリケーションの可能性を強調した。
関連論文リスト
- Dense Feature Interaction Network for Image Inpainting Localization [28.028361409524457]
画像中の欠落箇所を埋めるインペインティングは、一般的な画像編集技術である。
本稿では,Dense Feature Interaction Network (DeFI-Net) に基づく新しい塗り絵検出手法について述べる。
DeFI-Netは、様々なステージにわたるマルチスケール表現をキャプチャして増幅するために、新しいピラミッドアーキテクチャを使用している。
論文 参考訳(メタデータ) (2024-08-05T02:35:13Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Locate, Assign, Refine: Taming Customized Promptable Image Inpainting [22.163855501668206]
本稿では,マルチモーダル・プロンプト・イメージ・インパインティング・プロジェクト,新しいタスクモデル,カスタマイズされたイメージ・インパインティングのためのデータを紹介する。
マスクプロンプトに対応する画像中の特定の領域をシームレスに塗布できる,画像塗布の新しいアプローチであるLAR-Genを提案する。
我々のLAR-Genは、ソースイメージのコンテキスト整合性、主観的アイデンティティ整合性、テキスト記述に対する局所的セマンティック整合性、滑らか性整合性を保証するために粗大な方法で採用しています。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Smooth image-to-image translations with latent space interpolations [64.8170758294427]
マルチドメインイメージ・トゥ・イメージ(I2I)変換は、ターゲットドメインのスタイルに応じてソースイメージを変換することができる。
我々の正規化技術は、最先端のI2I翻訳を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2022-10-03T11:57:30Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。