論文の概要: Image Collation: Matching illustrations in manuscripts
- arxiv url: http://arxiv.org/abs/2108.08109v1
- Date: Wed, 18 Aug 2021 12:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:38:32.582321
- Title: Image Collation: Matching illustrations in manuscripts
- Title(参考訳): 画像照合:写本のイラストに一致する
- Authors: Ryad Kaoua, Xi Shen, Alexandra Durr, Stavros Lazaris, David Picard,
Mathieu Aubry
- Abstract要約: 図形照合の課題と,大規模な注釈付き公開データセットを導入して,ソリューションの評価を行う。
本研究は,本課題における美術類似度測定の実態を分析し,簡単な場合では成功したが,大規模な写本に苦慮していることを示す。
サイクル一貫性の対応を利用して,大幅な性能向上が期待できることを示す。
- 参考スコア(独自算出の注目度): 76.21388548732284
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Illustrations are an essential transmission instrument. For an historian, the
first step in studying their evolution in a corpus of similar manuscripts is to
identify which ones correspond to each other. This image collation task is
daunting for manuscripts separated by many lost copies, spreading over
centuries, which might have been completely re-organized and greatly modified
to adapt to novel knowledge or belief and include hundreds of illustrations.
Our contributions in this paper are threefold. First, we introduce the task of
illustration collation and a large annotated public dataset to evaluate
solutions, including 6 manuscripts of 2 different texts with more than 2 000
illustrations and 1 200 annotated correspondences. Second, we analyze state of
the art similarity measures for this task and show that they succeed in simple
cases but struggle for large manuscripts when the illustrations have undergone
very significant changes and are discriminated only by fine details. Finally,
we show clear evidence that significant performance boosts can be expected by
exploiting cycle-consistent correspondences. Our code and data are available on
http://imagine.enpc.fr/~shenx/ImageCollation.
- Abstract(参考訳): イラストは必須の伝達装置です。
歴史家にとって、類似の写本のコーパスでそれらの進化を研究する最初のステップは、どの写本が対応するかを特定することである。
この画像照合作業は、何世紀にもわたって散逸した写本によって分割され、完全に再編成され、新しい知識や信念に適応するように大幅に修正され、数百の挿絵を含んでいる。
この論文への私たちの貢献は3倍です。
まず,2万点以上のイラストと1200点以上の注釈付き対応文からなる2つの異なるテキストからなる6つの原稿を含む,大規模な注釈付き公開データセットと図形照合タスクを紹介する。
第2に,本課題における芸術的類似性の実態を分析し,簡単な事例では成功しているが,挿絵が極めて重要な変更を施し,細部のみを判別した場合は大きな写本に苦慮することを示す。
最後に,サイクル整合対応を活用すれば,大幅なパフォーマンス向上が期待できることを示す。
私たちのコードとデータはhttp://imagine.enpc.fr/~shenx/ImageCollation.comで公開されています。
関連論文リスト
- Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。
本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。
ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-07T20:55:39Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Shrinking the Semantic Gap: Spatial Pooling of Local Moment Invariants
for Copy-Move Forgery Detection [7.460203098159187]
Copy-move forgeryは、特定のパッチをコピー&ペーストして画像に貼り付ける操作で、潜在的に違法または非倫理的使用がある。
コピー・ムーブ・フォージェリーの法医学的手法の進歩は,検出精度とロバスト性の向上に寄与している。
自己相似性が高い画像や強い信号の破損のある画像の場合、既存のアルゴリズムはしばしば非効率なプロセスと信頼性の低い結果を示す。
論文 参考訳(メタデータ) (2022-07-19T09:11:43Z) - Neural Graph Matching for Modification Similarity Applied to Electronic
Document Comparison [0.0]
文書比較は法律や金融業界で一般的な課題である。
本稿では,文書比較に応用した新しいニューラルグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2022-04-12T02:37:54Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Spectral Graph-based Features for Recognition of Handwritten Characters:
A Case Study on Handwritten Devanagari Numerals [0.0]
本稿では,手書き文字を表現するために,頑健なグラフ表現とスペクトルグラフ埋め込みの概念を利用する手法を提案する。
提案手法の有効性の検証のために,インド統計研究所コルカタデータセットの標準手書き数値視覚パターン認識について広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T08:40:08Z) - IMRAM: Iterative Matching with Recurrent Attention Memory for
Cross-Modal Image-Text Retrieval [105.77562776008459]
既存の手法は、注意機構を利用して、そのような対応をきめ細かな方法で探索する。
既存の手法でこのような高度な対応を最適に捉えるのは難しいかもしれない。
本稿では,複数段階のアライメントで対応を捉えるIMRAM法を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:24:41Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。