論文の概要: VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.12081v4
- Date: Sun, 28 Sep 2025 14:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.278147
- Title: VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning
- Title(参考訳): VisionReasoner:強化学習による統一推論型視覚知覚
- Authors: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia,
- Abstract要約: 複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。
VisionReasonerは、視覚的な入力を分析するための推論機能を強化し、統一モデル内の様々な知覚タスクに対処する。
VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
- 参考スコア(独自算出の注目度): 56.99825489208698
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing a unified reward mechanism and multi-object cognitive learning strategies, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks within a unified model. VisionReasoner generates a structured reasoning process before delivering the desired outputs responding to user queries. Human evaluation reveals the reasoning process of VisionReasoner is faithful and reliable even without annotated reasoning train data. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming the baseline Qwen2.5VL by relative margins of 29.1\% on COCO (detection), 22.1\% on ReasonSeg (segmentation), and 15.3\% on CountBench (counting).
- Abstract(参考訳): 大きな視覚言語モデルは、多様な視覚的知覚タスクを扱う固有の能力を示す。
本稿では、共有モデル内で複数の視覚知覚タスクを推論し、解決できる統合フレームワークであるVisionReasonerを紹介する。
具体的には、統一報酬機構と多目的認知学習戦略を設計することにより、VisionReasonerはその推論能力を高めて視覚入力を分析し、統一モデル内の多様な知覚タスクに対処する。
VisionReasonerは、ユーザのクエリに応答する所望の出力を提供する前に、構造化された推論プロセスを生成する。
人間の評価は、VisionReasonerの推論プロセスは、注釈付き推論トレインデータなしでも忠実で信頼性が高いことを示している。
統合された視覚知覚能力を評価するために,3つの重要な領域(検出,セグメンテーション,計数)にまたがる10種類のタスクに対してVisionReasonerを評価した。
その結果、VisionReasonerは、COCOの29.1\%、ReasonSegの22.1\%、CountBenchの15.3\%でベースラインQwen2.5VLを上回り、統一モデルとして優れた性能を発揮することが示された。
関連論文リスト
- Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation [38.20492321295552]
VLM(Vision-Language Model)は、OV(Open-Vocabulary)オブジェクトの検出とセグメンテーションタスクにおいて広く採用されている。
それらはOV関連タスクを約束しているにもかかわらず、従来のビジョンタスクの有効性は評価されていない。
論文 参考訳(メタデータ) (2025-04-13T08:28:13Z) - VLM2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [34.95077625513563]
textbfVLM2-Benchは視覚言語モデルが視覚的にマッチングの手がかりをリンクできるかどうかを評価するためのベンチマークである。
12個のVLMの包括的評価と、様々な言語側および視覚側プロンプト手法のさらなる分析により、合計8つの重要な結果が得られた。
視覚的な手がかりをリンクするモデルの能力において重要な課題を特定し、大きなパフォーマンスギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-02-17T17:57:50Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - LATTE: Learning to Think with Vision Specialists [103.5952731807559]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - Towards A Unified Neural Architecture for Visual Recognition and
Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。
我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文 参考訳(メタデータ) (2023-11-10T20:27:43Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。