論文の概要: DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes
- arxiv url: http://arxiv.org/abs/2505.23179v1
- Date: Thu, 29 May 2025 07:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.730635
- Title: DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes
- Title(参考訳): DIP-R1:複雑な場面を観察・理解するRLによる深い検査・知覚
- Authors: Sungjune Park, Hyunjun Kim, Junho Kim, Seongho Kim, Yong Man Ro,
- Abstract要約: RL(DIP-R1)を用いた深部検査と知覚は,MLLMの視覚知覚能力を高めるために設計されている。
DIP-R1は、3つのシンプルなルールベースの報酬モデルを通して、MLLMをビジュアルシーンの詳細な検査を通してガイドする。
ドメイン内およびドメイン外のさまざまなシナリオにおいて、一貫性と大幅な改善を実現します。
- 参考スコア(独自算出の注目度): 51.895756593200296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated significant visual understanding capabilities, yet their fine-grained visual perception in complex real-world scenarios, such as densely crowded public areas, remains limited. Inspired by the recent success of reinforcement learning (RL) in both LLMs and MLLMs, in this paper, we explore how RL can enhance visual perception ability of MLLMs. Then we develop a novel RL-based framework, Deep Inspection and Perception with RL (DIP-R1) designed to enhance the visual perception capabilities of MLLMs, by comprehending complex scenes and looking through visual instances closely. DIP-R1 guides MLLMs through detailed inspection of visual scene via three simply designed rule-based reward modelings. First, we adopt a standard reasoning reward encouraging the model to include three step-by-step processes: 1) reasoning for understanding visual scenes, 2) observing for looking through interested but ambiguous regions, and 3) decision-making for predicting answer. Second, a variance-guided looking reward is designed to examine uncertain regions for the second observing process. It explicitly enables the model to inspect ambiguous areas, improving its ability to mitigate perceptual uncertainties. Third, we model a weighted precision-recall accuracy reward enhancing accurate decision-making. We explore its effectiveness across diverse fine-grained object detection data consisting of challenging real-world environments, such as densely crowded scenes. Built upon existing MLLMs, DIP-R1 achieves consistent and significant improvement across various in-domain and out-of-domain scenarios. It also outperforms various existing baseline models and supervised fine-tuning methods. Our findings highlight the substantial potential of integrating RL into MLLMs for enhancing capabilities in complex real-world perception tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的な理解能力を示すが、密集した公共領域のような複雑な現実のシナリオにおいて、その微妙な視覚的認識は限定的のままである。
本稿では,LLMとMLLMの両方における強化学習(RL)の成功に触発されて,RLがMLLMの視覚知覚能力を高める方法について検討する。
そこで我々は,複雑なシーンを解釈し,視覚的インスタンスをよく見ることによって,MLLMの視覚的知覚能力を向上する新しいRLベースのフレームワークであるDeep Inspection and Perception with RL (DIP-R1)を開発した。
DIP-R1は、3つのシンプルなルールベースの報酬モデルを通して、MLLMをビジュアルシーンの詳細な検査を通してガイドする。
まず、モデルに3つのステップバイステッププロセスを含めるよう奨励する標準的な推論報酬を採用します。
1 視覚的場面の理解の理由
2【興味あるがあいまいな地域を観察する】
3)回答の予測のための意思決定。
第2に、分散誘導型ルック報酬は、第2の観察プロセスにおける不確実な領域を調べるように設計されている。
これは、モデルが曖昧な領域を検査することを可能にし、知覚の不確実性を緩和する能力を向上させる。
第3に、重み付き精度-リコール精度報酬をモデル化し、精度の高い意思決定を行う。
密集したシーンなど、現実世界の環境に挑戦する課題からなる、さまざまなきめ細かい物体検出データにまたがって、その有効性について検討する。
既存のMLLMに基づいて構築されたDIP-R1は、さまざまなドメイン内およびドメイン外のシナリオにおいて、一貫性と大幅な改善を実現している。
また、既存のベースラインモデルや教師付き微調整手法よりも優れている。
本研究は,RLをMLLMに組み込むことにより,複雑な実世界の知覚タスクにおける能力向上の可能性を明らかにするものである。
関連論文リスト
- VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。