論文の概要: UniRank: End-to-End Domain-Specific Reranking of Hybrid Text-Image Candidates
- arxiv url: http://arxiv.org/abs/2603.29897v1
- Date: Sun, 08 Feb 2026 12:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.173467
- Title: UniRank: End-to-End Domain-Specific Reranking of Hybrid Text-Image Candidates
- Title(参考訳): UniRank: エンド・ツー・エンドのドメイン--ハイブリッドなテキスト画像候補の再評価
- Authors: Yupei Yang, Lin Yang, Wanxi Deng, Lin Qu, Shikui Tu, Lei Xu,
- Abstract要約: テキストリランカは、画像候補よりも本質的にテキスト候補に近づき、バイアスと準最適のクロスモーダルランキングをもたらす。
モダリティ変換を伴わないハイブリッドテキストイメージ候補のスコア付けと順序付けを行う,VLMベースのリグレードフレームワークであるUniRankを提案する。
科学文献検索とデザイン特許検索の実験は、UniRankが最先端のベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 19.175171858134632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reranking is a critical component in many information retrieval pipelines. Despite remarkable progress in text-only settings, multimodal reranking remains challenging, particularly when the candidate set contains hybrid text and image items. A key difficulty is the modality gap: a text reranker is intrinsically closer to text candidates than to image candidates, leading to biased and suboptimal cross-modal ranking. Vision-language models (VLMs) mitigate this gap through strong cross-modal alignment and have recently been adopted to build multimodal rerankers. However, most VLM-based rerankers encode all candidates as images, and treating text as images introduces substantial computational overhead. Meanwhile, existing open-source multimodal rerankers are typically trained on general-domain data and often underperform in domain-specific scenarios. To address these limitations, we propose UniRank, a VLM-based reranking framework that natively scores and orders hybrid text-image candidates without any modality conversion. Building on this hybrid scoring interface, UniRank provides an end-to-end domain adaptation pipeline that includes: (1) an instruction-tuning stage that learns calibrated cross-modal relevance scoring by mapping label-token likelihoods to a unified scalar score; and (2) a hard-negative-driven preference alignment stage that constructs in-domain pairwise preferences and performs query-level policy optimization through reinforcement learning from human feedback (RLHF). Extensive experiments on scientific literature retrieval and design patent search demonstrate that UniRank consistently outperforms state-of-the-art baselines, improving Recall@1 by 8.9% and 7.3%, respectively.
- Abstract(参考訳): リグレードは多くの情報検索パイプラインにおいて重要なコンポーネントである。
テキストのみの設定の顕著な進歩にもかかわらず、特に候補セットがハイブリッドテキストとイメージアイテムを含んでいる場合、マルチモーダルリランクは依然として困難である。
テキストリランカは、画像候補よりも本質的にテキスト候補に近づき、バイアスと準最適のクロスモーダルランキングに繋がる。
視覚言語モデル(VLM)は、このギャップを強力なクロスモーダルアライメントを通じて緩和し、最近マルチモーダルリランカの構築に採用されている。
しかしながら、ほとんどのVLMベースのリランカは、すべての候補を画像としてエンコードし、テキストを画像として扱うことは、かなりの計算オーバーヘッドをもたらす。
一方、既存のオープンソースのマルチモーダルリランカは、通常、一般的なドメインデータに基づいて訓練され、ドメイン固有のシナリオではパフォーマンスが劣る。
これらの制約に対処するため、VLMベースのリグレードフレームワークであるUniRankを提案する。
このハイブリッドスコアリングインタフェース上に構築されたUniRankは,(1)ラベルトークンの確率を統一スカラースコアにマッピングすることで,校正されたクロスモーダルレバレンススコアを学習するインストラクションチューニングステージ,(2)ドメイン内の相互選好を構築し,人間のフィードバック(RLHF)からの強化学習を通じてクエリレベルのポリシー最適化を行うハードネガティブな優先調整ステージを含む,エンドツーエンドのドメイン適応パイプラインを提供する。
科学文献検索とデザイン特許検索に関する大規模な実験により、UniRankは最先端のベースラインを一貫して上回り、Recall@1を8.9%改善し、7.3%改善した。
関連論文リスト
- When Vision Meets Texts in Listwise Reranking [1.2691047660244335]
Rank-Nexusは、画像とテキストの両方を組み込んだ検索リスト上で、リストワイズで定性的な再ランクを行うマルチモーダルな画像テキスト文書再ランカである。
私たちはまず、大量のテキストを再ランク付けしたデータを活用して、知識をテキストブランチに抽出する、という、モダリティを個別にトレーニングします。
データが少ない画像に対しては,画像検索ベンチマーク上で,マルチモーダル大言語モデル(MLLM)キャプションから蒸留ペアを構築する。
論文 参考訳(メタデータ) (2026-01-28T13:57:14Z) - Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - QA-prompting: Improving Summarization with Large Language Models using Question-Answering [0.8460698440162888]
言語モデル(LM)は自然言語処理に革命をもたらし、プロンプトやテキスト内学習を通じて高品質なテキスト生成を可能にした。
本稿では,質問応答を要約生成の中間段階として利用する要約の簡易なプロンプト手法であるQA-promptingを提案する。
提案手法はキー情報を抽出し,テキストのコンテキストを強化して位置バイアスを緩和し,タスク毎の単一LMコールにおける要約を改善する。
論文 参考訳(メタデータ) (2025-05-20T13:29:36Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。