論文の概要: Region-R1: Reinforcing Query-Side Region Cropping for Multi-Modal Re-Ranking
- arxiv url: http://arxiv.org/abs/2604.05268v2
- Date: Wed, 08 Apr 2026 04:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.092458
- Title: Region-R1: Reinforcing Query-Side Region Cropping for Multi-Modal Re-Ranking
- Title(参考訳): Region-R1:マルチモーダルリランキングのためのクエリサイドリージョンクロップの強化
- Authors: Chan-Wei Hu, Zhengzhong Tu,
- Abstract要約: マルチモーダル検索拡張生成は、画像検索クエリの最も関連性の高い証拠を明らかにするために、リランカに大きく依存する。
標準のリランカは、全クエリイメージをグローバルな埋め込みとして処理し、類似性のスコアを歪ませる視覚的邪魔者の影響を受けやすいようにする。
本稿では,再ランク付け時の決定問題として領域選択を定式化するクエリ側領域トリミングフレームワークであるRerea-R1を提案する。
- 参考スコア(独自算出の注目度): 15.826680638852224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal retrieval-augmented generation (MM-RAG) relies heavily on re-rankers to surface the most relevant evidence for image-question queries. However, standard re-rankers typically process the full query image as a global embedding, making them susceptible to visual distractors (e.g., background clutter) that skew similarity scores. We propose Region-R1, a query-side region cropping framework that formulates region selection as a decision-making problem during re-ranking, allowing the system to learn to retain the full image or focus only on a question-relevant region before scoring the retrieved candidates. Region-R1 learns a policy with a novel region-aware group relative policy optimization (r-GRPO) to dynamically crop a discriminative region. Across two challenging benchmarks, E-VQA and InfoSeek, Region-R1 delivers consistent gains, achieving state-of-the-art performances by increasing conditional Recall@1 by up to 20%. These results show the great promise of query-side adaptation as a simple but effective way to strengthen MM-RAG re-ranking.
- Abstract(参考訳): マルチモーダル検索拡張生成(MM-RAG)は、画像検索クエリーの最も関連性の高い証拠を明らかにするために再ランカに大きく依存する。
しかし、一般的なリランカは、全クエリイメージをグローバルな埋め込みとして処理し、類似性のスコアをスキューする視覚的邪魔者(例えば、バックグラウンドクラッタ)の影響を受けやすいようにする。
本研究では,再ランク付け時に領域選択を判断問題として定式化するクエリ側領域トリミングフレームワークであるRerea-R1を提案する。
リージョンR1は、識別領域を動的に収穫するために、新しい地域対応グループ相対ポリシー最適化(r-GRPO)を用いてポリシーを学習する。
E-VQAとInfoSeekの2つの挑戦的なベンチマークの中で、Recall@1を最大20%増加させることで、Rerea-R1は一貫性のあるパフォーマンスを実現している。
これらの結果から,MM-RAGの再ランク付けの容易かつ効果的な方法として,クエリ側適応が期待できる可能性が示唆された。
関連論文リスト
- Test-Time Strategies for More Efficient and Accurate Agentic RAG [58.44913384057518]
Retrieval-Augmented Generation (RAG) システムは複雑なマルチホップ問題に直面している。
このような手法は、以前に処理された情報の反復的な検索を含む非効率性を導入することができる。
本稿では,これらの問題を軽減するために,サーチ-R1パイプラインに対するテスト時間修正について検討する。
論文 参考訳(メタデータ) (2026-03-12T19:18:59Z) - AINet: Anchor Instances Learning for Regional Heterogeneity in Whole Slide Image [61.54860340942449]
本稿では,その地域(地域)に代表されるインスタンスのコンパクトなサブセットであるアンカーインスタンス(AI)の概念を導入し,バッグ(グローバル)レベルで識別する。
これらのAIは、地域間の相互作用をガイドする意味的な参照として機能し、地域多様性を維持しながら非差別的なパターンを修正する。
我々は、単純な予測器を使用し、FLOPやパラメータを著しく少なくした最先端の手法を超越した、簡潔で効果的なフレームワークであるAINetを開発した。
論文 参考訳(メタデータ) (2026-02-21T09:36:27Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - RegionRAG: Region-level Retrieval-Augumented Generation for Visually-Rich Documents [40.107303323097646]
Modelnameは、検索パラダイムをドキュメントレベルからリージョンレベルにシフトする、新しいフレームワークです。
6つのベンチマークの実験は、RereaRAGが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-10-31T08:00:32Z) - Focus on Local: Finding Reliable Discriminative Regions for Visual Place Recognition [26.27331683733832]
視覚的位置認識(VPR)は、ジオタグ付き画像のデータベースを参照することにより、クエリ画像の位置を予測することを目的としている。
既存の手法では、識別領域の正確なモデリングと完全な利用が欠如している。
本稿では、画像検索とVPRにおける再ランク付けを同時に行うために、FoL(FoL)アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-14T05:04:51Z) - LocalSR: Image Super-Resolution in Local Region [42.85362760049813]
低解像度画像の局所領域のみを復元する新しいタスクであるLocalSRを提案する。
当社のアプローチは、低複雑性を減らし、この地域にのみ焦点を絞った変種よりも優れています。
論文 参考訳(メタデータ) (2024-12-05T16:30:54Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Region Rebalance for Long-Tailed Semantic Segmentation [89.84860341946283]
まず、ピクセル再バランスによってこの問題に対処する主な課題を調査し、特定する。
そして,本分析に基づいて,単純かつ効果的な領域再バランス方式を導出する。
提案された領域再均衡スキームでは、最先端のBEiTはADE20K val集合上のmIoUで+0.7%上昇する。
論文 参考訳(メタデータ) (2022-04-05T03:47:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。