論文の概要: DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
- arxiv url: http://arxiv.org/abs/2503.12797v2
- Date: Tue, 18 Mar 2025 05:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 10:32:01.333762
- Title: DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding
- Title(参考訳): DeepPerception:知識集約型視覚接地のためのMLLMにおけるR1様認知視覚の促進
- Authors: Xinyu Ma, Ziyang Ding, Zhicong Luo, Chi Chen, Zonghao Guo, Derek F. Wong, Xiaoyi Feng, Maosong Sun,
- Abstract要約: 人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
- 参考スコア(独自算出の注目度): 61.26026947423187
- License:
- Abstract: Human experts excel at fine-grained visual discrimination by leveraging domain knowledge to refine perceptual features, a capability that remains underdeveloped in current Multimodal Large Language Models (MLLMs). Despite possessing vast expert-level knowledge, MLLMs struggle to integrate reasoning into visual perception, often generating direct responses without deeper analysis. To bridge this gap, we introduce knowledge-intensive visual grounding (KVG), a novel visual grounding task that requires both fine-grained perception and domain-specific knowledge integration. To address the challenges of KVG, we propose DeepPerception, an MLLM enhanced with cognitive visual perception capabilities. Our approach consists of (1) an automated data synthesis pipeline that generates high-quality, knowledge-aligned training samples, and (2) a two-stage training framework combining supervised fine-tuning for cognitive reasoning scaffolding and reinforcement learning to optimize perception-cognition synergy. To benchmark performance, we introduce KVG-Bench a comprehensive dataset spanning 10 domains with 1.3K manually curated test cases. Experimental results demonstrate that DeepPerception significantly outperforms direct fine-tuning, achieving +8.08\% accuracy improvements on KVG-Bench and exhibiting +4.60\% superior cross-domain generalization over baseline approaches. Our findings highlight the importance of integrating cognitive processes into MLLMs for human-like visual perception and open new directions for multimodal reasoning research. The data, codes, and models are released at https://github.com/thunlp/DeepPerception.
- Abstract(参考訳): 現在のMLLM(Multimodal Large Language Models)では未発達の能力である知覚的特徴を洗練するためにドメイン知識を活用することで、人間の専門家はきめ細かな視覚的識別に優れています。
MLLMは専門家レベルの知識を豊富に持っているにもかかわらず、推論を視覚的知覚に統合することに苦慮し、深い分析なしに直接反応することが多い。
このギャップを埋めるために、我々は知識集約的な視覚的接地(KVG)を導入し、それは、きめ細かい認識とドメイン固有の知識統合の両方を必要とする新しい視覚的接地タスクである。
KVGの課題に対処するために,認知視覚能力に強化されたMLLMであるDeepPerceptionを提案する。
提案手法は,(1)高品質で知識に整合した学習サンプルを生成する自動データ合成パイプライン,(2)認知的推論のための教師付き微調整と強化学習を組み合わせた2段階の学習フレームワークから成り立っている。
パフォーマンスをベンチマークするために、KVG-Benchは10のドメインにまたがる包括的なデータセットで、1.3Kのテストケースを手作業でキュレートする。
実験の結果、DeepPerceptionは直接微調整よりも優れ、KVG-Benchの精度は+8.08 %向上し、ベースラインアプローチよりも+4.60 %優れたクロスドメイン一般化を示すことがわかった。
本研究は,認知過程をMLLMに組み込むことの重要性を強調した。
データ、コード、モデルはhttps://github.com/thunlp/DeepPerception.comで公開される。
関連論文リスト
- Cognitive Paradigms for Evaluating VLMs on Visual Reasoning Task [3.2228025627337864]
機械の視覚的推論を改善するには、ビジョン・ランゲージ・モデル(VLM)がどのように複雑な視覚的パターンを処理し、解釈するかを深く理解する必要がある。
本研究は,自然画像に基づくボナード問題に基づくVLM推論を体系的に解析する,認知に着想を得た新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning [0.0]
大規模視覚言語モデル(AKGP-LVLM)のための適応的知識誘導型事前学習法を提案する。
事前訓練と微調整の間、構造化された、構造化されていない知識をLVLMに組み込む。
提案手法を4つのベンチマークデータセットで評価し,最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-15T05:45:04Z) - RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。