論文の概要: R3G: A Reasoning--Retrieval--Reranking Framework for Vision-Centric Answer Generation
- arxiv url: http://arxiv.org/abs/2602.00104v1
- Date: Sun, 25 Jan 2026 12:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.936217
- Title: R3G: A Reasoning--Retrieval--Reranking Framework for Vision-Centric Answer Generation
- Title(参考訳): R3G: 推論-検索--ビジョン中心の回答生成のための格付けフレームワーク
- Authors: Zhuohong Chen, Zhengxian Wu, Zirui Liao, Shenao Jiang, Hangrui Xu, Yang Chen, Chaokui Su, Xiaoyu Liu, Haoqian Wang,
- Abstract要約: VQAの視覚中心の検索では、画像を取得して、行方不明の視覚的手がかりを供給し、それらを推論プロセスに統合する必要がある。
モジュール型Reasoning-Retrieval-Re rankフレームワークであるR3Gを提案する。
必要な視覚的手がかりを特定するための簡単な推論計画を作成し、次に2段階の戦略を採用し、粗い検索ときめ細かい再分類を行い、エビデンス画像を選択する。
- 参考スコア(独自算出の注目度): 24.755888254171342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-centric retrieval for VQA requires retrieving images to supply missing visual cues and integrating them into the reasoning process. However, selecting the right images and integrating them effectively into the model's reasoning remains challenging.To address this challenge, we propose R3G, a modular Reasoning-Retrieval-Reranking framework.It first produces a brief reasoning plan that specifies the required visual cues, then adopts a two-stage strategy, with coarse retrieval followed by fine-grained reranking, to select evidence images.On MRAG-Bench, R3G improves accuracy across six MLLM backbones and nine sub-scenarios, achieving state-of-the-art overall performance. Ablations show that sufficiency-aware reranking and reasoning steps are complementary, helping the model both choose the right images and use them well. We release code and data at https://github.com/czh24/R3G.
- Abstract(参考訳): VQAの視覚中心の検索では、画像を取得して、行方不明の視覚的手がかりを供給し、それらを推論プロセスに統合する必要がある。
しかし、正しい画像を選択してモデルの推論に効果的に統合することは依然として困難であり、この課題に対処するために、まず、必要な視覚的手がかりを特定するための簡単な推論計画であるR3Gを提案し、次に、粗い検索と細かな修正を行い、証拠画像を選択するための2段階の戦略を採用し、MRAG-Benchでは、6つのMLLMバックボーンと9つのサブシナリオ間の精度を改善し、最先端の全体的なパフォーマンスを実現する。
アブレーションは、十分認識されたリランクと推論ステップが相補的であることを示し、モデルが正しいイメージを選択し、それらをうまく利用するのに役立つ。
コードとデータはhttps://github.com/czh24/R3G.comで公開しています。
関連論文リスト
- VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning [49.610569478718226]
マルチモーダル報酬モデル(RM)は、視覚生成モデルのトレーニング後を大幅に改善した。
VideoReward Thinker (VR-Thinker)は、RMに視覚的推論操作と視覚的メモリウィンドウを備えた思考とイメージのフレームワークである。
提案手法は,映像選好ベンチマークにおいて,オープンソースモデル間で最先端の精度を提供する。
論文 参考訳(メタデータ) (2025-10-12T09:29:50Z) - VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。
しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。
EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文 参考訳(メタデータ) (2025-10-10T13:34:23Z) - ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models [11.263321053154364]
ERGOは推論駆動の知覚平均化マルチモーダルコンテキストで、どこにフォーカスするかを決定する。
我々は、粗大な知覚のための強化学習フレームワークにおいて、単純で効果的な報酬成分を開発する。
提案手法は,従来のモデルや競合手法よりも精度が高く,効率が向上する。
論文 参考訳(メタデータ) (2025-09-26T07:15:19Z) - From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文 参考訳(メタデータ) (2025-07-30T14:29:44Z) - SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [74.36139886192495]
本稿では,AG-ReID のための SD-ReID という新しい生成フレームワークを提案する。
まず、ViTベースのモデルを用いて人物表現を抽出し、個人性や視認性を含む制御可能な条件を抽出する。
次に、安定拡散(SD)モデルを微調整し、これらの制御可能な条件によって導かれる人物表現を強化する。
論文 参考訳(メタデータ) (2025-04-13T12:44:50Z) - Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval [28.018754406453937]
Composed Image Retrieval (CIR) は、参照画像によく似たターゲット画像を取得することを目的としている。
我々は、ZS-CIR(OSrCIR)の1段階反射鎖推論を提案する。
OSrCIRは、複数のタスクにわたる既存のトレーニングフリーメソッドよりも、パフォーマンスが1.80%から6.44%向上している。
論文 参考訳(メタデータ) (2024-12-15T06:22:20Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。