論文の概要: RGBX-R1: Visual Modality Chain-of-Thought Guided Reinforcement Learning for Multimodal Grounding
- arxiv url: http://arxiv.org/abs/2602.00504v1
- Date: Sat, 31 Jan 2026 04:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.223203
- Title: RGBX-R1: Visual Modality Chain-of-Thought Guided Reinforcement Learning for Multimodal Grounding
- Title(参考訳): RGBX-R1:マルチモーダルグラウンドのための視覚的モダリティチェーンガイド強化学習
- Authors: Jiahe Wu, Bing Cao, Qilong Wang, Qinghua Hu, Dongdong Li, Pengfei Zhu,
- Abstract要約: MLLM(Multimodal Large Language Models)は主にRGBモダリティに基づいて事前訓練されている。
RGBX-R1はMLLMの知覚と推論能力を高めるためのフレームワークである。
- 参考スコア(独自算出の注目度): 69.98331019544166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLM) are primarily pre-trained on the RGB modality, thereby limiting their performance on other modalities, such as infrared, depth, and event data, which are crucial for complex scenarios. To address this, we propose RGBX-R1, a framework to enhance MLLM's perception and reasoning capacities across various X visual modalities. Specifically, we employ an Understand-Associate-Validate (UAV) prompting strategy to construct the Visual Modality Chain-of-Thought (VM-CoT), which aims to expand the MLLMs' RGB understanding capability into X modalities. To progressively enhance reasoning capabilities, we introduce a two-stage training paradigm: Cold-Start Supervised Fine-Tuning (CS-SFT) and Spatio-Temporal Reinforcement Fine-Tuning (ST-RFT). CS-SFT supervises the reasoning process with the guidance of VM-CoT, equipping the MLLM with fundamental modality cognition. Building upon GRPO, ST-RFT employs a Modality-understanding Spatio-Temporal (MuST) reward to reinforce modality reasoning. Notably, we construct the first RGBX-Grounding benchmark, and extensive experiments verify our superiority in multimodal understanding and spatial perception, outperforming baselines by 22.71% on three RGBX grounding tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Model)は、主にRGBモダリティに基づいて事前訓練されており、複雑なシナリオに不可欠な赤外線、深度、イベントデータなどの他のモダリティのパフォーマンスを制限する。
そこで本稿では,MLLM の知覚・推論能力を高めるためのフレームワーク RGBX-R1 を提案する。
具体的には、MLLMのRGB理解能力をXモダリティに拡張することを目的とした、Visual Modality Chain-of-Thought(VM-CoT)を構築するための戦略を、UAV(Understand-Associate-Validate)に導入する。
本研究では,2段階の訓練パラダイムであるCS-SFTとST-RFTを導入する。
CS-SFTはVM-CoTのガイダンスで推論過程を監督し、MLLMに基本的なモダリティ認識を持たせる。
GRPO上に構築されたST-RFTは、モダリティ推論を強化するために、Modality-understanding Spatio-Temporal (MuST) の報酬を採用している。
特に,最初のRGBX-Groundingベンチマークを構築し,3つのRGBXグラウンドタスクにおいて,ベースラインを22.71%上回り,マルチモーダル理解と空間知覚の優位性を検証した。
関連論文リスト
- Enhancing Radiology Report Generation and Visual Grounding using Reinforcement Learning [15.894854593567963]
強化学習はタスク固有のフィードバックを取り入れることができ、その中間的推論(思考)と組み合わせることで、検証可能な数学やコーディングタスクに大きな利益が得られた。
我々はQwen3-VLに基づく視覚言語モデルを構築し,その後に基本思考能力を備えた冷間開始型SFTステージを構築した。
高いベース性能には強いSFTが不可欠であるが、RLは両方のタスクに追加の利得を与えるのに対し、明示的な思考は結果をさらに改善するわけではない。
論文 参考訳(メタデータ) (2025-12-11T14:36:14Z) - Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - Run, Ruminate, and Regulate: A Dual-process Thinking System for Vision-and-Language Navigation [52.11339614452127]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示に従って複雑な3D環境を動的に探索する必要がある。
近年の研究では、一般的な知識と一般的な推論能力から、大きな言語モデル(LLM)をVLNに活用する可能性を強調している。
本稿では、LLMの一般化機能とVLN固有の専門知識をゼロショットで統合する、R3と呼ばれる新しいデュアルプロセス思考フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T04:32:00Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model [13.82578761807402]
HOID-R1は,チェーン・オブ・シント(CoT)とグループ相対的ポリシー最適化のファインチューニングを統合した最初のHOI検出フレームワークである。
CoT推論における幻覚を軽減するために,CoT出力を監督するMLLM-as-a-judge機構を導入する。
実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-15T09:28:57Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。
第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する
第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - UniRGB-IR: A Unified Framework for Visible-Infrared Semantic Tasks via Adapter Tuning [34.727262809777095]
我々は、RGB-IRセマンティックタスクのためのスケーラブルで効率的なフレームワークUniRGB-IRを提案する。
本フレームワークは,視覚変換器(ViT)基礎モデル,マルチモーダル特徴プール(SFI)モジュール,補助特徴プール(SFI)モジュールの3つの主要コンポーネントから構成される。
各種RGB-IRセマンティックタスクの実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-26T12:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。