Fugu-MT 論文翻訳(概要): Spatial-R1: Enhancing MLLMs in Video Spatial Reasoning

論文の概要: Spatial-R1: Enhancing MLLMs in Video Spatial Reasoning

arxiv url: http://arxiv.org/abs/2504.01805v1
Date: Wed, 02 Apr 2025 15:12:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.403516
Title: Spatial-R1: Enhancing MLLMs in Video Spatial Reasoning
Title（参考訳）: 空間R1:ビデオ空間推論におけるMLLMの強化
Authors: Kun Ouyang,
Abstract要約: そこで本研究では,ScanNetから7つのタスクタイプにまたがるQAペアを自動的に生成するビデオ空間推論データセットを提案する。 Qwen2.5-VL-7B-インストラクトモデルをGRPOを用いて訓練することにより、Spatial-R1はベースラインの性能を大幅に向上させる。本研究は,ビデオMLLMにおける複雑な空間推論を改善するための特殊データキュレーションと最適化手法の有効性を検証する。
参考スコア（独自算出の注目度）: 2.461156742683098
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Enhancing the spatial reasoning capabilities of Multi-modal Large Language Models (MLLMs) for video understanding is crucial yet challenging. We present Spatial-R1, a targeted approach involving two key contributions: the curation of SR, a new video spatial reasoning dataset from ScanNet with automatically generated QA pairs across seven task types, and the application of Task-Specific Group Relative Policy Optimization (GRPO) for fine-tuning. By training the Qwen2.5-VL-7B-Instruct model on SR using GRPO, Spatial-R1 significantly advances performance on the VSI-Bench benchmark, achieving a 7.4\% gain over the baseline and outperforming strong contemporary models. This work validates the effectiveness of specialized data curation and optimization techniques for improving complex spatial reasoning in video MLLMs.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)の空間的推論能力をビデオ理解に活用することは極めて困難である。本稿では、SRのキュレーション、ScanNetによる7つのタスクタイプにまたがるQAペアの自動生成による新しいビデオ空間推論データセット、および微調整のためのタスク特化グループ相対ポリシー最適化(GRPO)の適用の2つの主要なコントリビューションを対象とするSpatial-R1を提案する。 GRPO を用いて SR 上で Qwen2.5-VL-7B-Instruct モデルを訓練することにより、Spatial-R1 は VSI-Bench ベンチマークの性能を著しく向上させ、ベースラインよりも 7.4 % 向上し、より優れた同時代のモデルより優れている。本研究は,ビデオMLLMにおける複雑な空間推論を改善するための特殊データキュレーションと最適化手法の有効性を検証する。

関連論文リスト

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。 RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文参考訳（メタデータ） (2025-07-31T23:55:29Z)
Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文参考訳（メタデータ） (2025-06-02T06:58:43Z)
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文参考訳（メタデータ） (2025-05-29T17:59:04Z)
STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs [49.41782982417187]
MLLM(Multimodal Large Language Models)は、様々なタスクにまたがる顕著な能力を示すが、空間的推論において人間よりもはるかに遅れている。このギャップを変換駆動型視覚推論(TVR)を用いて検討する。本稿では,STAR-R1を提案する。STAR-R1は単一ステージのRLパラダイムとTVRに適した微細な報酬機構を統合した新しいフレームワークである。
論文参考訳（メタデータ） (2025-05-21T17:57:38Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。 GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文参考訳（メタデータ） (2025-03-20T12:22:18Z)
SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。この制限は2つの大きな課題に起因している。時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文参考訳（メタデータ） (2025-03-18T07:40:36Z)
Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [44.42918139949761]
オープンな3次元空間における最先端基礎モデル(SOTA)の空間的推論能力を包括的に評価する新しいベンチマークOpen3DVQAを提案する。 Open3DVQAは9kのVQAサンプルで構成され、高忠実度都市シミュレーターにおける効率的な半自動ツールを用いて収集される。
論文参考訳（メタデータ） (2025-03-14T05:35:38Z)
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。 Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文参考訳（メタデータ） (2025-03-09T20:06:45Z)
RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference Optimization [53.63439735067081]
大規模言語モデル(LLM)は目覚ましい性能を達成したが、高い計算コストとレイテンシに直面している。 Retrieval-augmented Generation (RAG) は、外部知識を統合するのに役立つが、不完全な検索は、SLMを誤解させるノイズを引き起こす可能性がある。我々は、Margin-aware Preference Optimizationを通じて、SLMのための堅牢なRAGフレームワークであるRoseRAGを提案する。
論文参考訳（メタデータ） (2025-02-16T04:56:53Z)
RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception [20.01853641155509]
自然言語命令に基づくアプリケーション固有の視覚的グラウンドニングのための視覚言語モデル(VLM)は、学習可能な自律システムにおいて最も一般的なアプローチの1つである。本稿では, 強化学習(RL)エージェントと統合することにより, VLMファインチューニングを改善するための新しい一般化可能なフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-31T04:30:42Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains [45.349645606978434]
Retrieval-augmented Generation (RAG) は大規模言語モデル(LLM)の質問応答能力を向上させるドメイン適応のための質問応答と質問生成のジョイント機能を備えた自己学習手法であるSimRAGを提案する。 2つのバックボーンサイズと3つのドメインにまたがる11のデータセットの実験は、SimRAGがベースラインを1.2%～8.6%上回ることを示した。
論文参考訳（メタデータ） (2024-10-23T15:24:16Z)
RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。 Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文参考訳（メタデータ） (2024-06-27T13:08:35Z)
Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文参考訳（メタデータ） (2023-12-04T08:07:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。