論文の概要: Smooth Operator: Smooth Verifiable Reward Activates Spatial Reasoning Ability of Vision-Language Model
- arxiv url: http://arxiv.org/abs/2601.07695v1
- Date: Mon, 12 Jan 2026 16:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.628127
- Title: Smooth Operator: Smooth Verifiable Reward Activates Spatial Reasoning Ability of Vision-Language Model
- Title(参考訳): Smooth Operator:Smooth Verible Rewardは視覚言語モデルの空間共振能力を活性化する
- Authors: Siwen Jiao, Tianxiong Lv, Kangan Qian, Chenxu Zhao, Xiuyuan Zhu, Tianlun Li, Xiaolong Cheng, Jinyu Li, Zhihao Liao, Yang Cai,
- Abstract要約: 視覚言語モデル(VLM)は、3次元シーン理解のための正確な数値予測を実現する上で重要なボトルネックに直面している。
伝統的な強化学習アプローチは、主に相対的なランクに基づいており、しばしば深刻な報酬の分散と勾配不安定に悩まされる。
本稿では,Smooth Numerical Reward Activation (SNRA)演算子とAbsolute-Preserving GRPOフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 18.526821056010384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) face a critical bottleneck in achieving precise numerical prediction for 3D scene understanding. Traditional reinforcement learning (RL) approaches, primarily based on relative ranking, often suffer from severe reward sparsity and gradient instability, failing to effectively exploit the verifiable signals provided by 3D physical constraints. Notably, in standard GRPO frameworks, relative normalization causes "near-miss" samples (characterized by small but non-zero errors) to suffer from advantage collapse. This leads to a severe data utilization bottleneck where valuable boundary samples are discarded during optimization. To address this, we introduce the Smooth Numerical Reward Activation (SNRA) operator and the Absolute-Preserving GRPO (AP-GRPO) framework. SNRA employs a dynamically parameterized Sigmoid function to transform raw feedback into a dense, continuous reward continuum. Concurrently, AP-GRPO integrates absolute scalar gradients to mitigate the numerical information loss inherent in conventional relative-ranking mechanisms. By leveraging this approach, we constructed Numerical3D-50k, a dataset comprising 50,000 verifiable 3D subtasks. Empirical results indicate that AP-GRPO achieves performance parity with large-scale supervised methods while maintaining higher data efficiency, effectively activating latent 3D reasoning in VLMs without requiring architectural modifications.
- Abstract(参考訳): 視覚言語モデル(VLM)は、3次元シーン理解のための正確な数値予測を実現する上で重要なボトルネックに直面している。
従来の強化学習(RL)アプローチは、主に相対的なランクに基づいており、3次元の物理的制約によって得られる検証可能な信号を効果的に活用することができず、深刻な報酬の分散と勾配の不安定性に悩まされることが多い。
特に、標準のGRPOフレームワークでは、相対正規化は「ニアミス」サンプル(小さいがゼロでない誤りによって特徴付けられる)が有利な崩壊に苦しむ。
これにより、貴重な境界サンプルが最適化中に破棄されるという、データ利用の深刻なボトルネックが発生します。
そこで我々は,Smooth Numerical Reward Activation (SNRA)演算子とAbsolute-Preserving GRPO (AP-GRPO) フレームワークを紹介する。
SNRAは動的パラメータ化Sigmoid関数を用いて、生のフィードバックを高密度で連続的な報酬連続体に変換する。
同時に、AP-GRPOは絶対スカラー勾配を統合し、従来の相対的な機構に固有の数値情報損失を軽減する。
このアプローチを利用して,5万個の検証可能な3Dサブタスクからなるデータセットである数値3D-50kを構築した。
実験の結果,AP-GRPOは大規模教師付き手法で高いデータ効率を保ちながら性能を向上し,アーキテクチャ変更を必要とせず,VLMの潜在3D推論を効果的に活性化することがわかった。
関連論文リスト
- Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - Steepest Descent Density Control for Compact 3D Gaussian Splatting [72.54055499344052]
3D Gaussian Splatting (3DGS)は、強力なリアルタイム高解像度ノベルビューとして登場した。
本稿では,3DGSの密度制御をデミストし,改良する理論的枠組みを提案する。
我々はSteepGSを導入し、コンパクトな点雲を維持しながら損失を最小限に抑える原則的戦略である、最も急な密度制御を取り入れた。
論文 参考訳(メタデータ) (2025-05-08T18:41:38Z) - Uncertainty-Aware Normal-Guided Gaussian Splatting for Surface Reconstruction from Sparse Image Sequences [21.120659841877508]
3D Gaussian Splatting (3DGS)は、新規なビュー合成において印象的なレンダリング性能を達成した。
3DGSパイプライン内の幾何的不確かさを定量化するために,不確かさを意識した正規誘導型ガウス格子(UNG-GS)を提案する。
UNG-GSはスパース配列と高密度シーケンスの両方で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-14T08:18:12Z) - RW-Net: Enhancing Few-Shot Point Cloud Classification with a Wavelet Transform Projection-based Network [6.305913808037513]
RW-Netは、RDE(Rate-Distortion Explanation)とウェーブレット変換を統合することで、上記の課題に対処するために設計された新しいフレームワークである。
入力データの低周波成分を強調することにより、ウェーブレット変換は3次元オブジェクトの基本的な幾何学的および構造的特性をキャプチャする。
その結果,本手法は最先端の性能を達成し,数ショットの学習シナリオにおいて,より優れた一般化とロバスト性を示すことが示された。
論文 参考訳(メタデータ) (2025-01-06T18:55:59Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Federated Smoothing Proximal Gradient for Quantile Regression with Non-Convex Penalties [3.269165283595478]
IoT(Internet-of-Things)の分散センサーは、大量のスパースデータを生成する。
本稿では, 滑らか化機構をそのビューに統合し, 精度と計算速度を両立させる, 結合型滑らか化近位勾配(G)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-10T21:50:19Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。