論文の概要: DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes
- arxiv url: http://arxiv.org/abs/2505.23179v2
- Date: Wed, 15 Oct 2025 02:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.613628
- Title: DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes
- Title(参考訳): DIP-R1:複雑な場面を観察・理解するRLによる深い検査・知覚
- Authors: Sungjune Park, Hyunjun Kim, Junho Kim, Seongho Kim, Yong Man Ro,
- Abstract要約: 我々は,MLLMの視覚知覚能力を高めるために,DIP-R1(Deep Inspection and Perception with RL)という新しいフレームワークを開発した。
DIP-R1は、3つのシンプルなルールベースの報酬モデリングを通じて、MLLMをビジュアルシーンの詳細な検査を通じてガイドする。
本研究は,RLをMLLMに組み込むことにより,複雑な実世界の知覚タスクにおける能力向上の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 65.88899655866871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MLLMs have demonstrated significant visual understanding capabilities, yet their fine-grained visual perception in complex real-world scenarios, such as densely crowded public areas, remains limited. Inspired by the recent success of RL in both LLMs and MLLMs, in this paper, we explore how RL can enhance visual perception ability of MLLMs. Then we develop a novel RL-based framework, Deep Inspection and Perception with RL (DIP-R1) designed to enhance the visual perception capabilities of MLLMs, by comprehending complex scenes and looking through visual instances closely. DIP-R1 guides MLLMs through detailed inspection of visual scene via three simply designed rule-based reward modeling. First, we adopt a standard reasoning reward encouraging the model to include three-step reasoning process: 1) comprehending entire visual scene, 2) observing for looking through interested but ambiguous regions, and 3) decision-making for predicting answer. Second, a variance-guided looking reward is designed to encourage MLLM to examine uncertain regions during the observing process, guiding it to inspect ambiguous areas and mitigate perceptual uncertainty. This reward promotes variance-driven visual exploration, enabling MLLM to reason about region-level uncertainty and explicitly indicate interpretable uncertain regions. Third, we model a weighted precision-recall accuracy reward enhancing accurate decision-making. We verify its effectiveness across diverse fine-grained object detection data consisting of challenging real-world scenes, such as densely crowded scenes. Built upon existing MLLMs, DIP-R1 achieves consistent and significant improvement across various in-domain and out-of-domain scenarios, outperforming various existing baselines and SFT method. Our findings highlight the substantial potential of integrating RL into MLLMs for enhancing capabilities in complex real-world perception tasks.
- Abstract(参考訳): MLLMは大きな視覚的理解能力を示してきたが、密集した公共エリアのような複雑な現実世界のシナリオにおけるその微粒な視覚的認識は依然として限られている。
LLMとMLLMの両方で最近RLが成功したことに触発され、本稿ではRLがMLLMの視覚知覚能力をいかに向上できるかを考察する。
そこで我々は,複雑なシーンを解釈し,視覚的インスタンスをよく見ることによって,MLLMの視覚的知覚能力を向上する新しいRLベースのフレームワークであるDeep Inspection and Perception with RL (DIP-R1)を開発した。
DIP-R1は、3つのシンプルなルールベースの報酬モデリングを通じて、MLLMをビジュアルシーンの詳細な検査を通じてガイドする。
まず、モデルに3段階の推論プロセスを含めるよう奨励する標準的な推論報酬を採用します。
1)全体視覚シーンの理解
2【興味あるがあいまいな地域を観察する】
3)回答の予測のための意思決定。
第二に、変動誘導型ルック報酬は、MLLMが観測過程中に不確実な領域を調べることを奨励し、不明瞭な領域を検査し、知覚の不確実性を緩和するために設計されている。
この報酬は分散駆動型視覚探索を促進し、MLLMは領域レベルの不確実性を推論し、解釈可能な不確実な領域を明確に示すことができる。
第3に、重み付き精度-リコール精度報酬をモデル化し、精度の高い意思決定を行う。
密集したシーンなど、現実世界の難易度の高いシーンからなる多種多様な物体検出データに対して、その有効性を検証する。
既存のMLLMに基づいて構築されたDIP-R1は、ドメイン内およびドメイン外のさまざまなシナリオにおいて、一貫性と大幅な改善を実現し、既存のベースラインやSFTメソッドよりも優れています。
本研究は,RLをMLLMに組み込むことにより,複雑な実世界の知覚タスクにおける能力向上の可能性を明らかにするものである。
関連論文リスト
- Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。