Fugu-MT 論文翻訳(概要): Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

論文の概要: Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

arxiv url: http://arxiv.org/abs/2603.00152v2
Date: Thu, 05 Mar 2026 15:40:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 15:25:24.068164
Title: Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design
Title（参考訳）: セグ博士:知覚指向設計による視覚的大規模言語モデルのGRPOトレーニングの見直し
Authors: Haoxiang Sun, Tao Wang, Chenwei Tang, Li Yuan, Jiancheng Lv,
Abstract要約: 本稿では,Look-to-Confirm 機構と Distribution-Ranked Reward モジュールで構成されるシンプルな GRPO ベースのフレームワークである Dr.Seg を提案する。実験によると、Dr.Segは強力な一般化を維持しながら、複雑な視覚シナリオのパフォーマンスを向上させる。
参考スコア（独自算出の注目度）: 39.867923322793246
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Following the success of Group Relative Policy Optimization (GRPO) in foundation LLMs, an increasing number of works have sought to adapt GRPO to Visual Large Language Models (VLLMs) for visual perception tasks (e.g., detection and segmentation). However, much of this line of research rests on a long-standing yet unexamined assumption: training paradigms developed for language reasoning can be transferred seamlessly to visual perception. Our experiments show that this assumption is not valid, revealing intrinsic differences between reasoning-oriented and perception-oriented settings. Using reasoning segmentation as a representative case, we surface two overlooked factors: (i) the need for a broader output space, and (ii) the importance of fine-grained, stable rewards. Building on these observations, we propose Dr.~Seg, a simple, plug-and-play GRPO-based framework consisting of a Look-to-Confirm mechanism and a Distribution-Ranked Reward module, requiring no architectural modifications and integrating seamlessly with existing GRPO-based VLLMs. Extensive experiments demonstrate that Dr.~Seg improves performance in complex visual scenarios while maintaining strong generalization. Code, models, and datasets are available at https://github.com/eVI-group-SCU/Dr-Seg.
Abstract（参考訳）: LLMにおけるグループ相対ポリシー最適化(GRPO)の成功に続いて、視覚知覚タスク(例えば、検出とセグメンテーション)のために、GRPOを視覚大言語モデル(VLLM)に適応させようとする研究が増えている。言語推論のために開発された訓練パラダイムは、視覚的知覚にシームレスに移行することができる。本実験は,この仮定が有効でないことを示し,推論指向と知覚指向のセッティングの固有の相違を明らかにした。代表的なケースとして推論セグメンテーションを用いると、見落としている2つの要因が浮かび上がる。 (i)より広い出力空間の必要性、及び (二)細粒で安定した報酬の重要性これらの観測に基づいて、我々はDr.を提案する。 Segは、Look-to-ConfirmメカニズムとDistributed-Ranked Rewardモジュールで構成されるシンプルなGRPOベースのフレームワークで、アーキテクチャの変更を必要とせず、既存のGRPOベースのVLLMとシームレスに統合される。徹底的な実験がDr.を実証している。 Segは、強力な一般化を維持しながら、複雑な視覚シナリオのパフォーマンスを改善する。コード、モデル、データセットはhttps://github.com/eVI-group-SCU/Dr-Segで入手できる。

関連論文リスト

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文参考訳（メタデータ） (2026-03-03T18:36:16Z)
Understanding the Transfer Limits of Vision Foundation Models [38.99867932557529]
ファンデーションモデルは大規模な事前学習を利用して広範な知識を捉え、幅広い言語タスクにおける一般化を実証する。この制限は、事前学習目標と下流の視覚・画像タスクの要求とのミスマッチから生じると仮定する。一般的な視覚パターンの回復やグローバルな意味構造などのタスクに対する、マスク付き画像再構成や対照的な学習形状表現などの事前学習戦略。以上の結果から,事前学習と下流作業の整合性は,最大平均偏差(MMD)などの単純な分散指標によって測定され,微調整前後の同一特徴間の相関が強く,性能改善と相関することが示唆された。
論文参考訳（メタデータ） (2026-01-22T12:07:56Z)
DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Model [22.28268642142352]
DiG (Differential Grounding) は、MLLM がより詳細な認識を学習する新しいプロキシ・タスク・フレームワークである。この結果は,MLLMの微細な視覚的推論を向上するための,スケーラブルで堅牢なアプローチとして,微分接地に注目した。
論文参考訳（メタデータ） (2025-12-14T10:40:27Z)
ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文参考訳（メタデータ） (2025-09-24T07:34:09Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning [0.42855555838080844]
本研究では,視覚言語モデル(VLM)の空間的推論能力について,Chain-of-Thoughtプロンプトと強化学習を通して検討した。モデルが解答の前に推論ステップを生成する単純なCoT形式は、モデルの本来の性能を損なう可能性がある。対照的に、シーングラフ(SceneGraph CoT)に基づく構造化マルチステージプロンプトは空間推論の精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-06T10:51:12Z)
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme [36.34443944082215]
本研究は、視覚モデル(VLM)における強化学習(RL)のための透明でゼロスクラッチなフレームワークを導入する。複数のモデルとデータセットにまたがって検証される、最小限の機能を備えた4ステップパイプラインを提供する。さらに、トレーニング力学と反射行動を評価するために、標準化された評価手法を提案する。
論文参考訳（メタデータ） (2025-04-03T13:53:28Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文参考訳（メタデータ） (2025-03-13T08:43:24Z)
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-20T16:05:18Z)
GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。 GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文参考訳（メタデータ） (2024-03-14T13:47:41Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。