論文の概要: Enhancing Historical Image Retrieval with Compositional Cues
- arxiv url: http://arxiv.org/abs/2403.14287v1
- Date: Thu, 21 Mar 2024 10:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:38:15.038061
- Title: Enhancing Historical Image Retrieval with Compositional Cues
- Title(参考訳): 構成キュウリを用いた歴史的画像検索の強化
- Authors: Tingyu Lin, Robert Sablatnig,
- Abstract要約: 本稿では,この話題に計算美学,すなわち画像合成から重要な要素を紹介する。
CNNが抽出した合成関連情報を設計した検索モデルに明示的に統合することにより、画像の合成規則と意味情報の両方を考察する。
- 参考スコア(独自算出の注目度): 3.2276097734075426
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In analyzing vast amounts of digitally stored historical image data, existing content-based retrieval methods often overlook significant non-semantic information, limiting their effectiveness for flexible exploration across varied themes. To broaden the applicability of image retrieval methods for diverse purposes and uncover more general patterns, we innovatively introduce a crucial factor from computational aesthetics, namely image composition, into this topic. By explicitly integrating composition-related information extracted by CNN into the designed retrieval model, our method considers both the image's composition rules and semantic information. Qualitative and quantitative experiments demonstrate that the image retrieval network guided by composition information outperforms those relying solely on content information, facilitating the identification of images in databases closer to the target image in human perception. Please visit https://github.com/linty5/CCBIR to try our codes.
- Abstract(参考訳): 膨大な量のデジタル記憶された歴史的画像データを分析する際、既存のコンテンツベースの検索手法は、しばしば重要な非意味的な情報を見落とし、様々なテーマをまたいだ柔軟な探索の有効性を制限している。
多様な目的のために画像検索手法の適用範囲を広げ、より一般的なパターンを明らかにするために、このトピックに計算美学、すなわち画像合成の重要な要素を革新的に導入する。
CNNが抽出した合成関連情報を設計した検索モデルに明示的に統合することにより、画像の合成規則と意味情報の両方を考察する。
定性的かつ定量的な実験により、合成情報によって導かれる画像検索ネットワークは、コンテンツ情報のみに依存するものよりも優れており、人間の知覚における対象画像に近いデータベース内の画像の識別が容易であることが示された。
コードを試すにはhttps://github.com/linty5/CCBIRを参照してください。
関連論文リスト
- Enrich the content of the image Using Context-Aware Copy Paste [1.450405446885067]
本稿では,By Latent Information Propagation (BLIP) を組み込んだコンテキスト認識手法を提案する。
抽出したコンテンツ情報とカテゴリ情報とをマッチングすることにより,Segment Anything Model (SAM) と You Only Look Once (YOLO) を用いて対象物の密結合性を確保する。
各種データセットを対象とした実験により,データ多様性の向上と高品質な擬似画像の生成において,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-11T03:07:28Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - Webpage Segmentation for Extracting Images and Their Surrounding
Contextual Information [0.0]
本稿では,Web ページ上に表示される特徴に基づいて,Web 画像の抽出とそのコンテキスト情報を対象とした Web ページ分割アルゴリズムを提案する。
提案手法の有効性を検証するために,提案手法が既存のセグメンテーションアルゴリズムよりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2020-05-18T19:00:03Z) - Unsupervised Learning of Landmarks based on Inter-Intra Subject
Consistencies [72.67344725725961]
本稿では,物体間ランドマーク成分を顔画像に組み込むことにより,画像ランドマーク発見のための教師なし学習手法を提案する。
これは、補助的な主題関連構造に基づいて、元の主題のランドマークを変換するオブジェクト間マッピングモジュールによって達成される。
変換された画像から元の被写体に戻るために、ランドマーク検出器は、対のオブジェクト内画像と対のオブジェクト間画像の両方に一貫した意味を含む空間的位置を学習せざるを得ない。
論文 参考訳(メタデータ) (2020-04-16T20:38:16Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z) - Learning Transformation-Aware Embeddings for Image Forensics [15.484408315588569]
Image Provenance Analysisは、コンテンツを共有するさまざまな操作されたイメージバージョン間の関係を見つけることを目的としている。
証明分析のための主要なサブプロブレムの1つは、完全なコンテンツを共有したり、ほぼ重複している画像の編集順序である。
本稿では,1つの画像から生成した画像に対して,変換を通じて妥当な順序付けを行うための,新しい深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-13T22:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。