Fugu-MT 論文翻訳(概要): Entity Image and Mixed-Modal Image Retrieval Datasets

論文の概要: Entity Image and Mixed-Modal Image Retrieval Datasets

arxiv url: http://arxiv.org/abs/2506.02291v1
Date: Mon, 02 Jun 2025 22:04:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.09949
Title: Entity Image and Mixed-Modal Image Retrieval Datasets
Title（参考訳）: エンティティイメージと混合モード画像検索データセット
Authors: Cristian-Ioan Blaga, Paul Suganthan, Sahil Dua, Krishna Srinivasan, Enrique Alfonseca, Peter Dornbach, Tom Duerig, Imed Zitouni, Zhe Dong,
Abstract要約: 本稿では,画像の検索を厳格に評価するための新しいベンチマークを提案する。 We present two new datasets: the Entity Image dataset (EI), including canonical image for Wikipedia entity and the Mixed-Modal Image Retrieval dataset (MMIR), from the WIT dataset。我々は,学習コーパスと混合モーダル検索のための評価セットとして,ベンチマークの有用性を実証的に検証した。
参考スコア（独自算出の注目度）: 9.6977953463099
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite advances in multimodal learning, challenging benchmarks for mixed-modal image retrieval that combines visual and textual information are lacking. This paper introduces a novel benchmark to rigorously evaluate image retrieval that demands deep cross-modal contextual understanding. We present two new datasets: the Entity Image Dataset (EI), providing canonical images for Wikipedia entities, and the Mixed-Modal Image Retrieval Dataset (MMIR), derived from the WIT dataset. The MMIR benchmark features two challenging query types requiring models to ground textual descriptions in the context of provided visual entities: single entity-image queries (one entity image with descriptive text) and multi-entity-image queries (multiple entity images with relational text). We empirically validate the benchmark's utility as both a training corpus and an evaluation set for mixed-modal retrieval. The quality of both datasets is further affirmed through crowd-sourced human annotations. The datasets are accessible through the GitHub page: https://github.com/google-research-datasets/wit-retrieval.
Abstract（参考訳）: マルチモーダル学習の進歩にもかかわらず、視覚情報とテキスト情報を組み合わせた混合モーダル画像検索のための挑戦的なベンチマークは不足している。本稿では,画像の検索を厳格に評価するための新しいベンチマークを提案する。我々は、Wikipediaエンティティの標準画像を提供するEntity Image Dataset (EI)と、WITデータセットから派生したMixed-Modal Image Retrieval Dataset (MMIR)の2つの新しいデータセットを提案する。 MMIRベンチマークは、提供されたビジュアルエンティティのコンテキストにおいて、テキスト記述を基盤とするモデルを必要とする2つの困難なクエリタイプを特徴としている。我々は,学習コーパスと混合モーダル検索のための評価セットとして,ベンチマークの有用性を実証的に検証した。両方のデータセットの品質は、クラウドソースのヒューマンアノテーションによってさらに確認される。データセットはGitHubページからアクセスできる。

関連論文リスト

JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文参考訳（メタデータ） (2023-07-03T02:39:08Z)
EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。 EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文参考訳（メタデータ） (2023-05-23T02:59:19Z)
AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia Content Creation [42.35572014527354]
AToMiCデータセットは、画像/テキストのクロスモーダル検索の研究を進めるために設計されている。我々は、ウィキペディアに埋め込まれた大規模な画像文書関連だけでなく、階層構造やテキスト、スタイル、画像のさまざまな領域を活用している。 AToMiCはスケーラブルで多様な再現可能なマルチメディア検索研究のためのテストベッドを提供する。
論文参考訳（メタデータ） (2023-04-04T17:11:34Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR) 我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文参考訳（メタデータ） (2022-04-24T08:10:06Z)
ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文参考訳（メタデータ） (2022-03-15T17:29:20Z)
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文参考訳（メタデータ） (2020-02-23T23:58:04Z)
Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文参考訳（メタデータ） (2020-02-20T00:51:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。