論文の概要: Leveraging Lightweight Entity Extraction for Scalable Event-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2512.21221v1
- Date: Wed, 24 Dec 2025 15:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.80881
- Title: Leveraging Lightweight Entity Extraction for Scalable Event-Based Image Retrieval
- Title(参考訳): スケーラブルなイベントベース画像検索のための軽量エンティティ抽出の活用
- Authors: Dao Sy Duy Minh, Huynh Trung Kiet, Nguyen Lam Phu Quy, Phu-Hoa Pham, Tran Chi Nguyen,
- Abstract要約: 実世界の画像テキスト検索は、あいまいなクエリや文脈に依存したクエリ、言語的可変性、スケーラブルなソリューションの必要性のために困難である。
本稿では、イベント中心のエンティティ抽出を利用して、実世界のキャプションから時間的・文脈的な信号を取り込む軽量な2段階検索パイプラインを提案する。
提案手法は平均0.559の精度を達成し,従来のベースラインよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving images from natural language descriptions is a core task at the intersection of computer vision and natural language processing, with wide-ranging applications in search engines, media archiving, and digital content management. However, real-world image-text retrieval remains challenging due to vague or context-dependent queries, linguistic variability, and the need for scalable solutions. In this work, we propose a lightweight two-stage retrieval pipeline that leverages event-centric entity extraction to incorporate temporal and contextual signals from real-world captions. The first stage performs efficient candidate filtering using BM25 based on salient entities, while the second stage applies BEiT-3 models to capture deep multimodal semantics and rerank the results. Evaluated on the OpenEvents v1 benchmark, our method achieves a mean average precision of 0.559, substantially outperforming prior baselines. These results highlight the effectiveness of combining event-guided filtering with long-text vision-language modeling for accurate and efficient retrieval in complex, real-world scenarios. Our code is available at https://github.com/PhamPhuHoa-23/Event-Based-Image-Retrieval
- Abstract(参考訳): 自然言語記述から画像を取得することは、コンピュータビジョンと自然言語処理の共通部分における中核的なタスクであり、検索エンジン、メディアアーカイブ、デジタルコンテンツ管理に広く応用されている。
しかし、あいまいなクエリや文脈に依存したクエリ、言語的多様性、スケーラブルなソリューションの必要性など、現実的な画像テキスト検索は依然として困難である。
本研究では、イベント中心のエンティティ抽出を利用して、実世界のキャプションから時間的・文脈的な信号を取り込む軽量な2段階検索パイプラインを提案する。
第1段階は、有能な実体に基づくBM25を用いた効率的な候補フィルタリングを行い、第2段階は、深いマルチモーダルなセマンティクスを捕捉し、結果を再現するBEiT-3モデルを適用した。
OpenEvents v1ベンチマークで評価した結果,提案手法は平均0.559の精度を達成し,従来よりも大幅に向上した。
これらの結果は、複雑な実世界のシナリオにおいて、イベント誘導フィルタリングと長文視覚言語モデリングを組み合わせることで、正確かつ効率的な検索の有効性を浮き彫りにしている。
私たちのコードはhttps://github.com/PhamPhuHoa-23/Event-Based-Image-Retrievalで利用可能です。
関連論文リスト
- EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions [11.853877966862086]
自由形キャプションからのイベントベースの画像検索は重要な課題である。
本稿では,高密度な記事検索,イベント認識言語モデルの再ランク付け,効率的な画像収集を併用した多段階検索フレームワークを提案する。
本システムは,EVENTA 2025 Grand Challengeにおけるトラック2のプライベートテストセットにおいて,トップ1のスコアを達成している。
論文 参考訳(メタデータ) (2025-08-31T09:03:25Z) - Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval [13.296362770269452]
Mask-aware TIR (MaTIR) は、テキストクエリに基づいて関連する画像を見つけることを目的としている。
セグメンテーションを意識した画像検索のための第1段階と、再ランク付けとオブジェクトグラウンド化のための第2段階からなる2段階のフレームワークを提案する。
我々はCOCOとD$3$データセットに対するアプローチを評価し、従来の手法に比べて精度とセグメンテーション品質の両方が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-28T12:19:49Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。