論文の概要: OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding
- arxiv url: http://arxiv.org/abs/2601.16538v1
- Date: Fri, 23 Jan 2026 08:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.603061
- Title: OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding
- Title(参考訳): OnlineSI: オンライン3D理解と接地のための大規模言語モデルの作成
- Authors: Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu,
- Abstract要約: OnlineSIは、ビデオストリームが与えられた周囲の空間的理解を改善するためのフレームワークである。
私たちの中核となる考え方は、過去の観測を維持するために有限空間記憶を維持することです。
さらに3Dポイントのクラウド情報を意味情報と統合し、MLLMがシーン内のオブジェクトをよりよく見つけ、識別するのに役立つ。
- 参考スコア(独自算出の注目度): 53.33067495235966
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, researchers have increasingly been interested in how to enable Multimodal Large Language Models (MLLM) to possess spatial understanding and reasoning capabilities. However, most existing methods overlook the importance of the ability to continuously work in an ever-changing world, and lack the possibility of deployment on embodied systems in real-world environments. In this work, we introduce OnlineSI, a framework that can continuously improve its spatial understanding of its surroundings given a video stream. Our core idea is to maintain a finite spatial memory to retain past observations, ensuring the computation required for each inference does not increase as the input accumulates. We further integrate 3D point cloud information with semantic information, helping MLLM to better locate and identify objects in the scene. To evaluate our method, we introduce the Fuzzy $F_1$-Score to mitigate ambiguity, and test our method on two representative datasets. Experiments demonstrate the effectiveness of our method, paving the way towards real-world embodied systems.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLM) の空間的理解と推論機能の実現に,研究者はますます関心を寄せている。
しかし、既存のほとんどの手法は、常に変化する世界で継続的に機能する能力の重要性を軽視し、現実の環境で実施されるシステムへのデプロイの可能性を欠いている。
本研究では,映像ストリームの空間的理解を継続的に改善するフレームワークであるOnlineSIを紹介する。
我々の中核となる考え方は、過去の観測を維持するために有限空間メモリを維持することであり、入力が蓄積されるにつれて、各推論に必要な計算量が増加しないことを保証することである。
さらに3Dポイントのクラウド情報を意味情報と統合し、MLLMがシーン内のオブジェクトをよりよく見つけ、識別するのに役立つ。
提案手法を評価するために,あいまいさを軽減するためにFuzzy $F_1$-Scoreを導入し,2つの代表的なデータセット上で本手法をテストする。
実験により本手法の有効性を実証し,実世界の具体化システムへの道を開いた。
関連論文リスト
- SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding [64.86119288520419]
マルチモーダル言語モデルは時間と空間の空間的推論に苦しむ。
SIMS-Vは3次元シミュレータの特権情報を利用するシステムデータ生成フレームワークである。
提案手法は,実世界の空間的タスクの具体的改善を図りながら,一般的な映像理解の性能を維持しながら,堅牢な一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T18:53:31Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM [39.65493154187172]
大規模言語モデル(LLM)は、3D理解タスクを強化するために利用されており、従来のコンピュータビジョン手法を超越する可能性を示している。
本稿では,既存の手法を3つの分野に分類する分類法を提案する。2次元視覚データから3次元理解を導出するイメージベース手法,3次元表現を直接扱うポイントクラウド方式,複数データストリームを組み合わせたハイブリッドモダリティ方式である。
論文 参考訳(メタデータ) (2025-04-08T08:11:39Z) - Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [130.40123493752816]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。