論文の概要: CoT4Det: A Chain-of-Thought Framework for Perception-Oriented Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2512.06663v1
- Date: Sun, 07 Dec 2025 05:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.4584
- Title: CoT4Det: A Chain-of-Thought Framework for Perception-Oriented Vision-Language Tasks
- Title(参考訳): CoT4Det: 知覚指向の視覚言語タスクのための待ち行列フレームワーク
- Authors: Yu Qi, Yumeng Zhang, Chenting Gong, Xiao Tan, Weiming Zhang, Wei Zhang, Jingdong Wang,
- Abstract要約: Chain-of-Thought for Detection (CoT4Det)は、知覚タスクを3つの解釈可能なステップに再構成するシンプルだが効率的な戦略である。
一般的な視覚言語能力を損なうことなく,CoT4Detは認識性能を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 53.88194225946438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable success in a broad range of vision-language tasks, such as general visual question answering and optical character recognition (OCR). However, their performance on perception-centric tasks -- such as object detection, semantic segmentation, and depth estimation -- remains significantly inferior to that of task-specific expert models. For example, Qwen2.5-VL-7B-Instruct achieves only 19% mAP on COCO2017 val, particularly struggling with dense scenes and small object recall. In this work, we introduce Chain-of-Thought for Detection (CoT4Det), a simple but efficient strategy that reformulates perception tasks into three interpretable steps: classification, counting, and grounding -- each more naturally aligned with the reasoning capabilities of LVLMs. Extensive experiments demonstrate that our method significantly improves perception performance without compromising general vision language capabilities. With a standard Qwen2.5-VL-7B-Instruct, CoT4Det boosts mAP from 19.0% to 33.0% on COCO2017 val and achieves competitive results across a variety of perception benchmarks, outperforming baselines by +2% on RefCOCO series and 19% on Flickr30k entities.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、一般的な視覚的質問応答や光学的文字認識(OCR)など、幅広い視覚言語タスクにおいて顕著な成功を収めている。
しかしながら、オブジェクト検出、セマンティックセグメンテーション、深さ推定など、知覚中心のタスクにおけるそれらのパフォーマンスは、タスク固有のエキスパートモデルよりも著しく劣っている。
例えば Qwen2.5-VL-7B-Instruct は COCO2017 val 上で 19% mAP しか達成していない。
本研究では,認識タスクを3つの解釈可能なステップ – 分類,カウント,グラウンド – に書き換えるシンプルだが効率的な戦略であるChain-of-Thought for Detection (CoT4Det) を紹介する。
広汎な実験により、一般的な視覚言語能力を損なうことなく、認識性能を著しく向上することが示された。
標準のQwen2.5-VL-7B-インストラクトでは、CoT4DetはmAPをCOCO2017 valで19.0%から33.0%に引き上げ、さまざまな知覚ベンチマークで比較結果を得る。
関連論文リスト
- AraReasoner: Evaluating Reasoning-Based LLMs for Arabic NLP [2.869780207429188]
大規模言語モデル(LLM)は推論能力の顕著な進歩を示している。
しかし、アラビアデータにおける彼らのパフォーマンスは、豊富な形態学、多様な方言、複雑な文字によって特徴づけられ、未発見のままである。
本稿では,複数の推論に焦点をあてたLLMの総合的なベンチマーク研究について述べる。
論文 参考訳(メタデータ) (2025-06-10T13:10:31Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning [56.99825489208698]
複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。
VisionReasonerは、視覚的な入力を分析するための推論機能を強化し、統一モデル内の様々な知覚タスクに対処する。
VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
論文 参考訳(メタデータ) (2025-05-17T16:51:47Z) - Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,空間的タスクにおけるいくつかの高度なモデルの性能を探索し,比較するために,新しいマルチタスク空間評価データセットを提案する。
データセットには、空間的理解や単純なルート計画など、12の異なるタスクタイプが含まれており、それぞれが検証され、正確な答えを持っている。
論文 参考訳(メタデータ) (2024-08-26T17:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。