論文の概要: EUFCC-CIR: a Composed Image Retrieval Dataset for GLAM Collections
- arxiv url: http://arxiv.org/abs/2410.01536v1
- Date: Thu, 3 Oct 2024 10:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:14:45.664614
- Title: EUFCC-CIR: a Composed Image Retrieval Dataset for GLAM Collections
- Title(参考訳): EUFCC-CIR:GLAMコレクションのための合成画像検索データセット
- Authors: Francesc Net, Lluis Gomez,
- Abstract要約: EUFCC-CIRは、ギャラリー、図書館、アーカイブ、博物館(GLAM)コレクション内のコンポジションイメージ検索(CIR)のために設計されたデータセットである。
我々のデータセットは、EUFCC-340Kイメージラベルデータセットの上に構築されており、180K以上の注釈付きCIRトリプルを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The intersection of Artificial Intelligence and Digital Humanities enables researchers to explore cultural heritage collections with greater depth and scale. In this paper, we present EUFCC-CIR, a dataset designed for Composed Image Retrieval (CIR) within Galleries, Libraries, Archives, and Museums (GLAM) collections. Our dataset is built on top of the EUFCC-340K image labeling dataset and contains over 180K annotated CIR triplets. Each triplet is composed of a multi-modal query (an input image plus a short text describing the desired attribute manipulations) and a set of relevant target images. The EUFCC-CIR dataset fills an existing gap in CIR-specific resources for Digital Humanities. We demonstrate the value of the EUFCC-CIR dataset by highlighting its unique qualities in comparison to other existing CIR datasets and evaluating the performance of several zero-shot CIR baselines.
- Abstract(参考訳): 人工知能とデジタルヒューマニティの交差により、研究者はより深い深さと規模で文化遺産コレクションを探索することができる。
本稿では,ギャラリー,図書館,アーカイブ,博物館(GLAM)コレクション内のコンポジション画像検索(CIR)のためのデータセットであるEUFCC-CIRを紹介する。
我々のデータセットは、EUFCC-340Kイメージラベルデータセットの上に構築されており、180K以上の注釈付きCIRトリプルを含んでいる。
各トリプルトは、マルチモーダルなクエリ(入力画像と所望の属性操作を記述した短いテキスト)と、関連するターゲット画像のセットで構成されている。
EUFCC-CIRデータセットは、デジタル人間性のためのCIR固有のリソースのギャップを埋める。
我々は、EUFCC-CIRデータセットの価値を、既存のCIRデータセットと比較し、その特徴を強調し、いくつかのゼロショットCIRベースラインの性能を評価することによって示す。
関連論文リスト
- EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections [6.723689308768857]
EUFCC340Kデータセットは、AAT(Art & Architecture Thesaurus)に基づいた階層構造に従って、材料、オブジェクトタイプ、ディシプリエンス、主題という、複数の面にまたがって構成されている。
2つの異なるテストシナリオにおけるモデルロバスト性および一般化能力の評価実験は、マルチラベル分類ツールの改善におけるデータセットの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-04T14:57:56Z) - Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration [60.535793237063885]
LLM(Large Language Models)の普及は、インターネット上のAIGC(AIGC)の流入につながっている。
AIGCの急増が情報検索システムに与える影響は、まだ明らかな疑問である。
我々は、この混合ソースデータランドスケープでIRモデルを評価するのに適したベンチマークであるCocktailを紹介した。
論文 参考訳(メタデータ) (2024-05-26T12:30:20Z) - iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - UniIR: Training and Benchmarking Universal Multimodal Information
Retrievers [76.06249845401975]
命令誘導型マルチモーダルレトリバーであるUniIRを導入する。
UniIRは、10の多様なマルチモーダル-IRデータセットで共同で訓練された単一の検索システムであり、様々な検索タスクを実行するためにユーザー命令を解釈する。
我々は,汎用マルチモーダル情報検索の評価を標準化するために,総合的な結果を持つマルチモーダル検索ベンチマークであるM-BEIRを構築した。
論文 参考訳(メタデータ) (2023-11-28T18:55:52Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - MosAIc: Finding Artistic Connections across Culture with Conditional
Image Retrieval [27.549695661396274]
視覚的類似性検索とユーザ提供フィルタと「条件」を組み合わせた条件付き画像検索(CIR)を導入する。
CIRは、画像コーパスの異なるサブセットにまたがる類似した画像のペアを見つけることができる。
我々は,我々のCIRデータ構造がGAN(Generative Adversarial Networks)において,真のデータ分布を適切にモデル化できない「盲点」を識別可能であることを示す。
論文 参考訳(メタデータ) (2020-07-14T16:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。