論文の概要: Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
- arxiv url: http://arxiv.org/abs/2506.23120v1
- Date: Sun, 29 Jun 2025 06:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.725124
- Title: Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation
- Title(参考訳): 推論に基づくセグメント化による多モーダル大言語モデルにおける空間推論の強化
- Authors: Zhenhua Ning, Zhuotao Tian, Shaoshuai Shi, Guangming Lu, Daojing He, Wenjie Pei, Li Jiang,
- Abstract要約: 本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
- 参考スコア(独自算出の注目度): 50.81551581148339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in point cloud perception have demonstrated remarkable progress in scene understanding through vision-language alignment leveraging large language models (LLMs). However, existing methods may still encounter challenges in handling complex instructions that require accurate spatial reasoning, even if the 3D point cloud data provides detailed spatial cues such as size and position for identifying the targets. To tackle this issue, we propose Relevant Reasoning Segmentation (R$^2$S), a reasoning-based segmentation framework. The framework emulates human cognitive processes by decomposing spatial reasoning into two sequential stages: first identifying relevant elements, then processing instructions guided by their associated visual priors. Furthermore, acknowledging the inadequacy of existing datasets in complex reasoning tasks, we introduce 3D ReasonSeg, a reasoning-based segmentation dataset comprising 25,185 training samples and 3,966 validation samples with precise annotations. Both quantitative and qualitative experiments demonstrate that the R$^2$S and 3D ReasonSeg effectively endow 3D point cloud perception with stronger spatial reasoning capabilities, and we hope that they can serve as a new baseline and benchmark for future work.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) を利用した視覚言語アライメントによるシーン理解の進歩が目覚ましい。
しかし、既存の手法は、たとえ3Dポイントクラウドデータがターゲットを特定するためにサイズや位置などの詳細な空間的手がかりを提供するとしても、正確な空間的推論を必要とする複雑な命令を扱う際の課題に直面する可能性がある。
この問題に対処するために、推論に基づくセグメンテーションフレームワークであるRelevant Reasoning Segmentation (R$^2$S)を提案する。
このフレームワークは、空間的推論を2つの逐次段階に分解することで、人間の認知過程をエミュレートする。
さらに、複雑な推論タスクにおける既存のデータセットの不適切さを認識し、25,185のトレーニングサンプルと3,966の正確なアノテーションを含む推論に基づくセグメンテーションデータセットである3D ReasonSegを導入する。
R$^2$S と 3D ReasonSeg は,空間的推論能力の強い3次元点雲知覚を効果的に実現し,今後の研究のための新たなベースラインとベンチマークとして機能できることを実証した。
関連論文リスト
- Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Explore In-Context Learning for 3D Point Cloud Understanding [71.20912026561484]
我々は,特に3Dポイントクラウドにおけるコンテキスト内学習のために設計された,ポイント・イン・コンテキストという新しいフレームワークを紹介した。
一般点サンプリング演算子とタンデムで協調して動作するように慎重に設計したJoint Smplingモジュールを提案する。
提案手法の汎用性と適応性を検証するため,幅広いタスクを扱うための広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-14T17:53:21Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Salient Object Detection for Point Clouds [13.852801615283747]
我々は、ポイントクラウドのシナリオにおいて最も目を引くオブジェクトを合理的に反映する、有能なオブジェクトのビュー依存の視点を新たに提示する。
我々は,2,872個のイン/アウトドア3DビューからなるポイントクラウドSODのための最初のデータセットであるPCSODを紹介する。
提案モデルでは,不規則点と不規則点を効果的に解析し,有意な物体を検出する。
論文 参考訳(メタデータ) (2022-07-25T03:35:46Z) - Semantic Segmentation for Real Point Cloud Scenes via Bilateral
Augmentation and Adaptive Fusion [38.05362492645094]
現実世界の複雑な環境を直感的に捉えることができますが、3Dデータの生の性質のため、機械認識にとって非常に困難です。
我々は、現実に収集された大規模クラウドデータに対して、重要な視覚的タスク、セマンティックセグメンテーションに集中する。
3つのベンチマークで最先端のネットワークと比較することにより,ネットワークの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-12T04:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。