論文の概要: EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions
- arxiv url: http://arxiv.org/abs/2509.00751v1
- Date: Sun, 31 Aug 2025 09:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.373772
- Title: EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions
- Title(参考訳): EVENT-Retriever:実写キャプションのためのイベント対応マルチモーダル画像検索
- Authors: Dinh-Khoi Vo, Van-Loc Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: 自由形キャプションからのイベントベースの画像検索は重要な課題である。
本稿では,高密度な記事検索,イベント認識言語モデルの再ランク付け,効率的な画像収集を併用した多段階検索フレームワークを提案する。
本システムは,EVENTA 2025 Grand Challengeにおけるトラック2のプライベートテストセットにおいて,トップ1のスコアを達成している。
- 参考スコア(独自算出の注目度): 11.853877966862086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event-based image retrieval from free-form captions presents a significant challenge: models must understand not only visual features but also latent event semantics, context, and real-world knowledge. Conventional vision-language retrieval approaches often fall short when captions describe abstract events, implicit causality, temporal context, or contain long, complex narratives. To tackle these issues, we introduce a multi-stage retrieval framework combining dense article retrieval, event-aware language model reranking, and efficient image collection, followed by caption-guided semantic matching and rank-aware selection. We leverage Qwen3 for article search, Qwen3-Reranker for contextual alignment, and Qwen2-VL for precise image scoring. To further enhance performance and robustness, we fuse outputs from multiple configurations using Reciprocal Rank Fusion (RRF). Our system achieves the top-1 score on the private test set of Track 2 in the EVENTA 2025 Grand Challenge, demonstrating the effectiveness of combining language-based reasoning and multimodal retrieval for complex, real-world image understanding. The code is available at https://github.com/vdkhoi20/EVENT-Retriever.
- Abstract(参考訳): フリーフォームキャプションからのイベントベースの画像検索は、視覚的特徴だけでなく、潜在イベントセマンティクス、コンテキスト、現実世界の知識も理解しなければならない。
従来の視覚言語検索のアプローチは、キャプションが抽象的な出来事、暗黙の因果関係、時間的文脈、あるいは長い複雑な物語を含む場合、しばしば不足する。
これらの課題に対処するために、高密度記事検索、イベント認識言語モデルの再ランク付け、効率的な画像収集を組み合わせた多段階検索フレームワークを導入し、次にキャプション誘導型セマンティックマッチングとランク認識の選択を行う。
記事検索にはQwen3,コンテキストアライメントにはQwen3-Reranker,正確な画像スコアにはQwen2-VLを利用する。
性能とロバスト性をさらに向上するため,Reciprocal Rank Fusion (RRF) を用いて複数の構成から出力をフューズする。
本システムは,EVENTA 2025 Grand Challengeにおけるトラック2のプライベートテストセットのトップ1スコアを達成し,複雑な実世界の画像理解のための言語ベースの推論とマルチモーダル検索の組み合わせの有効性を実証する。
コードはhttps://github.com/vdkhoi20/EVENT-Retrieverで公開されている。
関連論文リスト
- ReCap: Event-Aware Image Captioning with Article Retrieval and Semantic Gaussian Normalization [9.914251544971686]
ReCapは、イベント強化された画像検索とキャプションのための新しいパイプラインである。
関連する記事からより広い文脈情報を取り入れ、物語に富んだキャプションを生成する。
我々のアプローチは、標準的な視覚言語モデルの限界に対処する。
論文 参考訳(メタデータ) (2025-09-01T08:48:33Z) - Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。
我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。
Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文 参考訳(メタデータ) (2025-08-04T11:49:20Z) - ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models [12.265270657795275]
ImageChainは、画像データに対するシーケンシャルな推論機能を備えたMLLMを強化するフレームワークである。
提案手法は,次の場面における記述課題の性能向上に寄与する。
ImageChainは、コミックからロボティクスまで幅広いアプリケーションにおいて、堅牢なゼロショット・アウト・オブ・ドメインのパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-26T18:55:06Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。