Fugu-MT 論文翻訳(概要): VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

論文の概要: VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.12081v2
Date: Wed, 21 May 2025 10:08:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 13:19:52.320869
Title: VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning
Title（参考訳）: VisionReasoner:強化学習による統一された視覚知覚と推論
Authors: Yuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia,
Abstract要約: 複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。 VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
参考スコア（独自算出の注目度）: 55.34552054232695
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large vision-language models exhibit inherent capabilities to handle diverse visual perception tasks. In this paper, we introduce VisionReasoner, a unified framework capable of reasoning and solving multiple visual perception tasks within a shared model. Specifically, by designing novel multi-object cognitive learning strategies and systematic task reformulation, VisionReasoner enhances its reasoning capabilities to analyze visual inputs, and addresses diverse perception tasks in a unified framework. The model generates a structured reasoning process before delivering the desired outputs responding to user queries. To rigorously assess unified visual perception capabilities, we evaluate VisionReasoner on ten diverse tasks spanning three critical domains: detection, segmentation, and counting. Experimental results show that VisionReasoner achieves superior performance as a unified model, outperforming Qwen2.5VL by relative margins of 29.1% on COCO (detection), 22.1% on ReasonSeg (segmentation), and 15.3% on CountBench (counting).
Abstract（参考訳）: 大きな視覚言語モデルは、多様な視覚的知覚タスクを扱う固有の能力を示す。本稿では、共有モデル内で複数の視覚知覚タスクを推論し、解決できる統合フレームワークであるVisionReasonerを紹介する。具体的には、新しい多目的認知学習戦略と体系的なタスク再構成を設計することにより、VisionReasonerは、視覚的な入力を分析するための推論能力を高め、統一されたフレームワークで多様な知覚タスクに対処する。モデルは、ユーザのクエリに応答する所望の出力を提供する前に、構造化された推論プロセスを生成する。統合された視覚知覚能力を評価するために,3つの重要な領域(検出,セグメンテーション,計数)にまたがる10種類のタスクに対してVisionReasonerを評価した。実験の結果、VisionReasonerは統合モデルとして優れており、COCOの29.1%、ReasonSegの22.1%、CountBenchの15.3%でQwen2.5VLを上回っていることがわかった。

関連論文リスト

Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation [38.20492321295552]
VLM(Vision-Language Model)は、OV(Open-Vocabulary)オブジェクトの検出とセグメンテーションタスクにおいて広く採用されている。それらはOV関連タスクを約束しているにもかかわらず、従来のビジョンタスクの有効性は評価されていない。
論文参考訳（メタデータ） (2025-04-13T08:28:13Z)
VLM2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [34.95077625513563]
textbfVLM2-Benchは視覚言語モデルが視覚的にマッチングの手がかりをリンクできるかどうかを評価するためのベンチマークである。 12個のVLMの包括的評価と、様々な言語側および視覚側プロンプト手法のさらなる分析により、合計8つの重要な結果が得られた。視覚的な手がかりをリンクするモデルの能力において重要な課題を特定し、大きなパフォーマンスギャップを浮き彫りにする。
論文参考訳（メタデータ） (2025-02-17T17:57:50Z)
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2025-01-23T12:42:42Z)
LATTE: Learning to Think with Vision Specialists [103.5952731807559]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文参考訳（メタデータ） (2024-12-07T00:42:04Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文参考訳（メタデータ） (2024-07-01T21:20:44Z)
Towards A Unified Neural Architecture for Visual Recognition and Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文参考訳（メタデータ） (2023-11-10T20:27:43Z)
Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文参考訳（メタデータ） (2022-09-30T19:12:58Z)
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。 2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文参考訳（メタデータ） (2022-07-24T23:50:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。