論文の概要: Unlocking Comics: The AI4VA Dataset for Visual Understanding
- arxiv url: http://arxiv.org/abs/2410.20459v1
- Date: Sun, 27 Oct 2024 14:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:24.450469
- Title: Unlocking Comics: The AI4VA Dataset for Visual Understanding
- Title(参考訳): アンロックコミック:ビジュアル理解のためのAI4VAデータセット
- Authors: Peter Grönquist, Deblina Bhattacharjee, Bahar Aydemir, Baran Ozaydin, Tong Zhang, Mathieu Salzmann, Sabine Süsstrunk,
- Abstract要約: 本稿では,1950年代のフレンチ・ベルジアン漫画に,深度推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
2つの異なる一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルを取り入れている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングの革新のための道も提供します。
- 参考スコア(独自算出の注目度): 62.345344799258804
- License:
- Abstract: In the evolving landscape of deep learning, there is a pressing need for more comprehensive datasets capable of training models across multiple modalities. Concurrently, in digital humanities, there is a growing demand to leverage technology for diverse media adaptation and creation, yet limited by sparse datasets due to copyright and stylistic constraints. Addressing this gap, our paper presents a novel dataset comprising Franco-Belgian comics from the 1950s annotated for tasks including depth estimation, semantic segmentation, saliency detection, and character identification. It consists of two distinct and consistent styles and incorporates object concepts and labels taken from natural images. By including such diverse information across styles, this dataset not only holds promise for computational creativity but also offers avenues for the digitization of art and storytelling innovation. This dataset is a crucial component of the AI4VA Workshop Challenges~\url{https://sites.google.com/view/ai4vaeccv2024}, where we specifically explore depth and saliency. Dataset details at \url{https://github.com/IVRL/AI4VA}.
- Abstract(参考訳): ディープラーニングの進化する状況では、複数のモダリティをまたいだモデルのトレーニングが可能な、より包括的なデータセットの必要性が高まっている。
同時に、デジタル人文科学においては、多彩なメディア適応と創造のためにテクノロジーを活用する必要性が高まっているが、著作権と様式的な制約により、スパースデータセットによって制限されている。
このギャップに対処するため,1950年代のフランス・ベルギーの漫画に,深さ推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
異なる2つのスタイルと一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルが組み込まれている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングのイノベーションのための道も提供します。
このデータセットはAI4VA Workshop Challenges~\url{https://sites.google.com/view/ai4vaeccv2024}の重要なコンポーネントです。
データセットの詳細は \url{https://github.com/IVRL/AI4VA} にある。
関連論文リスト
- LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文 参考訳(メタデータ) (2023-01-26T18:50:54Z) - HandsOff: Labeled Dataset Generation With No Additional Human
Annotations [13.11411442720668]
本稿では,任意の数の合成画像と対応するラベルを生成する技術であるHandsOffフレームワークを紹介する。
本フレームワークは,GANインバージョンフィールドとデータセット生成を統一することにより,先行作業の現実的な欠点を回避する。
顔、車、フルボディの人間のポーズ、都市運転シーンなど、複数の挑戦的な領域において、リッチなピクセルワイズラベルを持つデータセットを生成します。
論文 参考訳(メタデータ) (2022-12-24T03:37:02Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - KaoKore: A Pre-modern Japanese Art Facial Expression Dataset [8.987910033541239]
近代日本美術品から抽出された顔からなる新しいデータセットKaoKoreを提案する。
画像分類のためのデータセットとしての価値と、生成モデルを用いて探索する創造的で芸術的なデータセットとしての価値を実証する。
論文 参考訳(メタデータ) (2020-02-20T07:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。