論文の概要: Reinforcing 3D Understanding in Point-VLMs via Geometric Reward Credit Assignment
- arxiv url: http://arxiv.org/abs/2604.21160v1
- Date: Thu, 23 Apr 2026 00:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.219342
- Title: Reinforcing 3D Understanding in Point-VLMs via Geometric Reward Credit Assignment
- Title(参考訳): 幾何学的リワードクレジットアサインメントによる点VLMの3次元理解の強化
- Authors: Jingkun Chen, Ruoshi Xu, Mingqi Gao, Shengda Luo, Jungong Han,
- Abstract要約: 本研究では、フィールド固有の信号に全体的監督を分散させるフレームワークを提案し、それらを責任あるトークンスパンにのみルーティングする。
提案手法は,3次元KPAを0.64から0.93に増加させ,結合上の3次元境界ボックス交点を0.686に増加させ,再計画整合点を0.852に引き上げることで信頼性ギャップを橋渡しする。
- 参考スコア(独自算出の注目度): 45.205992501478256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point-Vision-Language Models promise to empower embodied agents with executable spatial reasoning, yet they frequently succumb to geometric hallucination where predicted 3D structures contradict the observed 2D reality. We identify a key cause of this failure not as a representation bottleneck but as a structural misalignment in reinforcement learning, where sparse geometric tokens are drowned out by noisy and broadcasted sequence-level rewards. To resolve this causal dilution, we propose Geometric Reward Credit Assignment, a framework that disentangles holistic supervision into field-specific signals and routes them exclusively to their responsible token spans. This mechanism transforms vague feedback into precise gradient updates and effectively turns generic policy optimization into targeted structural alignment. Furthermore, we internalize physical constraints via a Reprojection-Consistency term which serves as a cross-modal verifier to penalize physically impossible geometries. Validated on a calibrated benchmark derived from ShapeNetCore, our approach bridges the reliability gap by boosting 3D KPA from 0.64 to 0.93, increasing 3D bounding box intersection over union to 0.686, and raising reprojection consistency scores to 0.852. Crucially, these gains are achieved while maintaining robust 2D localization performance, marking a meaningful step from plausible textual outputs toward physically verifiable spatial predictions.
- Abstract(参考訳): ポイントビジョン・ランゲージモデル(Point-Vision-Language Models)は、実施可能な空間的推論によるエンボディエージェントの強化を約束するが、予測された3次元構造が観測された2次元現実と矛盾する幾何学的幻覚にしばしば寄与する。
我々は,この障害の原因を表現的ボトルネックではなく,補足学習における構造的不整合として認識し,希少な幾何学的トークンが雑音や放送されたシーケンスレベルの報酬によって取り除かれる。
この因果的希釈を解決するために,フィールド固有の信号に全体的監督をゆがめ,責任あるトークンスパンにのみルーティングするフレームワークであるGeometric Reward Credit Assignmentを提案する。
このメカニズムは曖昧なフィードバックを正確な勾配更新に変換し、ジェネリックポリシー最適化をターゲットとした構造アライメントに効果的に変換する。
さらに、物理的に不可能な測地をペナルティ化するクロスモーダル検証器として機能するReprojection-Consistencyという用語を用いて、物理的制約を内部化する。
ShapeNetCoreから得られた校正ベンチマークで検証した結果、3D KPAを0.64から0.93に引き上げ、結合上の3Dバウンディングボックスの交点を0.686に増やし、再計画整合点を0.852に上げることにより、信頼性ギャップを橋渡しする。
重要なことは、これらの利得は堅牢な2次元ローカライゼーション性能を維持しながら達成され、テキスト出力から物理的に検証可能な空間予測への有意義なステップとなる。
関連論文リスト
- LG-HCC: Local Geometry-Aware Hierarchical Context Compression for 3D Gaussian Splatting [77.81227097905865]
アンカーベースの3DGS圧縮スキームは、いくつかの高度な文脈モデルを通してガウスの冗長性を減少させる。
本稿では, アンカープルーニングとエントロピー符号化にアンカー幾何学的相関を組み込んだ3DGSのための局所幾何学的階層型コンテキスト圧縮フレームワークを提案する。
実験の結果、LG-HCCは構造保存の問題を効果的に緩和し、Mip-NeRF360データセット上のScaffold-GSベースラインと比較して最大30.85倍のストレージを削減した。
論文 参考訳(メタデータ) (2026-03-30T13:39:35Z) - Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文 参考訳(メタデータ) (2026-03-26T08:31:06Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild [7.4746628878102195]
Shape-of-Youは意味対応のための教師なし学習フレームワークである。
SPair-71kおよびAP-10kデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-03-12T07:22:03Z) - SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection [49.12928389918159]
既存の単分子3D検出器は典型的には、切り離された予測パラダイムを通じて、3D境界ボックスの顕著な非線形回帰をテームする。
本稿では2つの主成分を持つ新しい空間射影アライメント(SPAN)を提案する。
SPANは、予測された3次元境界ボックスと接地した3次元境界ボックスの間に明らかに大域的な空間的制約を課し、それによって非結合な特性回帰による空間的ドリフトを補正する。
3D-2Dプロジェクションアライメントは、投影された3Dボックスが、画像平面上の対応する2D検出バウンディングボックス内に密に整列していることを保証する。
論文 参考訳(メタデータ) (2025-11-10T04:48:48Z) - CAGE: Continuity-Aware edGE Network Unlocks Robust Floorplan Reconstruction [24.09888364478496]
我々は,点-雲密度マップから直接ベクトルフロアプランを再構築する堅牢なフレームワークであるCAGEを提案する。
CAGEは最先端のパフォーマンスを達成し、F1スコアは99.1%(部屋)、91.7%(コーナー)、89.3%(角度)である。
論文 参考訳(メタデータ) (2025-09-18T22:10:37Z) - Robust Self-Supervised LiDAR Odometry via Representative Structure
Discovery and 3D Inherent Error Modeling [67.75095378830694]
そこで我々は,2段階のオドメトリ推定ネットワークを構築し,一連の部分領域変換を推定してエゴモーメントを求める。
本稿では,トレーニング,推論,マッピングフェーズにおける信頼できない構造の影響を軽減することを目的とする。
我々の2フレームのオードメトリーは、翻訳/回転誤差の点で、過去の芸術の状態を16%/12%上回っている。
論文 参考訳(メタデータ) (2022-02-27T12:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。