論文の概要: RegionReasoner: Region-Grounded Multi-Round Visual Reasoning
- arxiv url: http://arxiv.org/abs/2602.03733v1
- Date: Tue, 03 Feb 2026 16:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.589005
- Title: RegionReasoner: Region-Grounded Multi-Round Visual Reasoning
- Title(参考訳): RegionReasoner: Region-Grounded Multi-Round Visual Reasoning
- Authors: Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek,
- Abstract要約: RegionReasonerは視覚的推論のための強化学習フレームワークである。
これは、それぞれの推論トレースに対応する参照境界ボックスを明示的に引用することを要求することによって、根拠付き推論を強制する。
RegionReasonerは、基礎となる忠実さとグローバルなセマンティックアライメントを組み合わせた構造化された報酬で最適化されている。
- 参考スコア(独自算出の注目度): 69.75509909581133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models have achieved remarkable progress in visual reasoning, yet most existing systems rely on single-step or text-only reasoning, limiting their ability to iteratively refine understanding across multiple visual contexts. To address this limitation, we introduce a new multi-round visual reasoning benchmark with training and test sets spanning both detection and segmentation tasks, enabling systematic evaluation under iterative reasoning scenarios. We further propose RegionReasoner, a reinforcement learning framework that enforces grounded reasoning by requiring each reasoning trace to explicitly cite the corresponding reference bounding boxes, while maintaining semantic coherence via a global-local consistency reward. This reward extracts key objects and nouns from both global scene captions and region-level captions, aligning them with the reasoning trace to ensure consistency across reasoning steps. RegionReasoner is optimized with structured rewards combining grounding fidelity and global-local semantic alignment. Experiments on detection and segmentation tasks show that RegionReasoner-7B, together with our newly introduced benchmark RegionDial-Bench, considerably improves multi-round reasoning accuracy, spatial grounding precision, and global-local consistency, establishing a strong baseline for this emerging research direction.
- Abstract(参考訳): 大きな視覚言語モデルは視覚的推論において顕著な進歩を遂げているが、既存のほとんどのシステムは単一のステップまたはテキストのみの推論に依存しており、複数の視覚的文脈における理解を反復的に洗練する能力を制限する。
この制限に対処するために,検出タスクとセグメンテーションタスクの両方にまたがるトレーニングとテストセットを備えたマルチラウンド視覚推論ベンチマークを導入し,反復的推論シナリオ下での系統的評価を可能にする。
さらに、グローバルな局所的な一貫性報酬を通じて意味的一貫性を維持しつつ、対応する参照境界ボックスを明示的に引用することを各推論トレースに要求することで、基礎的推論を強制する強化学習フレームワークであるRereaReasonerを提案する。
この報酬は、グローバルシーンキャプションと地域レベルのキャプションの両方からキーオブジェクトと名詞を抽出し、推論ステップ間の一貫性を確保するために、推論トレースと整列する。
RegionReasonerは、基礎となる忠実さとグローバルなセマンティックアライメントを組み合わせた構造化された報酬で最適化されている。
検出およびセグメンテーションタスクの実験により、RereaReasoner-7Bは、新たに導入されたベンチマークであるRereaDial-Benchとともに、マルチラウンド推論精度、空間接地精度、グローバル局所整合性を著しく改善し、この新たな研究方向の強力なベースラインを確立した。
関連論文リスト
- RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach [41.001581773172695]
提案するGeo-Rは,既存の接地トラス座標から構造的推論経路を明らかにする,検索不要なフレームワークである。
本稿では,ルールに基づく階層的推論パラダイムである領域の連鎖を提案する。
提案手法は,空間的直接監視による地理的推論を構造化し,位置推定精度の向上,一般化の強化,透過的な推論を行う。
論文 参考訳(メタデータ) (2026-01-01T16:51:41Z) - REVEAL -- Reasoning and Evaluation of Visual Evidence through Aligned Language [0.1388281922732496]
我々は、この偽造検出の問題を、大規模視覚言語モデルのセマンティックアライメント機能を活用して、プロンプト駆動型視覚推論タスクとして構成する。
本研究では, 画像全体の物理, セマンティクス, パースペクティブ, リアリズムに依存する全体的シーンレベル評価と, 画像を複数の領域に分割して解析する領域ワイド異常検出の2つの手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T00:42:02Z) - DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning [50.88504784466931]
マルチタスク密度予測にはセマンティックセグメンテーション、深さ推定、表面正規推定が含まれる。
既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存している。
本提案では,ガウス分布を用いた地域表現をモデル化する。
論文 参考訳(メタデータ) (2024-03-15T12:41:30Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。
提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。
領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文 参考訳(メタデータ) (2022-02-09T18:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。