Fugu-MT 論文翻訳(概要): AI's Spatial Intelligence: Evaluating AI's Understanding of Spatial Transformations in PSVT:R and Augmented Reality

論文の概要: AI's Spatial Intelligence: Evaluating AI's Understanding of Spatial Transformations in PSVT:R and Augmented Reality

arxiv url: http://arxiv.org/abs/2411.06269v3
Date: Tue, 19 Nov 2024 03:37:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.137146
Title: AI's Spatial Intelligence: Evaluating AI's Understanding of Spatial Transformations in PSVT:R and Augmented Reality
Title（参考訳）: AIの空間知能:PSVT:Rと拡張現実におけるAIの空間変換理解の評価
Authors: Uttamasha Monjoree, Wei Yan,
Abstract要約: 3次元空間の回転を理解するには、言葉による記述や視覚的、インタラクティブな例が伴う。近年の研究では、言語と視覚能力を備えた人工知能は、空間推論の限界に直面している。我々は,その画像と言語処理機能を利用してオブジェクトの回転を理解する,生成AIの空間的能力について検討した。
参考スコア（独自算出の注目度）: 6.531561475204309
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatial intelligence is important in Architecture, Construction, Science, Technology, Engineering, and Mathematics (STEM), and Medicine. Understanding three-dimensional (3D) spatial rotations can involve verbal descriptions and visual or interactive examples, illustrating how objects change orientation in 3D space. Recent studies show Artificial Intelligence (AI) with language and vision capabilities still face limitations in spatial reasoning. In this paper, we have studied generative AI's spatial capabilities of understanding rotations of objects utilizing its image and language processing features. We examined the spatial intelligence of the GPT-4 model with vision in understanding spatial rotation process with diagrams based on the Revised Purdue Spatial Visualization Test: Visualization of Rotations (Revised PSVT:R). Next, we incorporated a layer of coordinate system axes on Revised PSVT:R to study the variations in GPT-4's performance. We also examined GPT-4's understanding of 3D rotations in Augmented Reality (AR) scenes that visualize spatial rotations of an object in 3D space and observed increased accuracy of GPT-4's understanding of the rotations by adding supplementary textual information depicting the rotation process or mathematical representations of the rotation (e.g., matrices). The results indicate that while GPT-4 as a major current Generative AI model lacks the understanding of a spatial rotation process, it has the potential to understand the rotation process with additional information that can be provided by methods such as AR. By combining the potentials in spatial intelligence of AI with AR's interactive visualization abilities, we expect to offer enhanced guidance for students' spatial learning activities. Such spatial guidance can benefit understanding spatial transformations and additionally support processes like assembly, fabrication, and manufacturing.
Abstract（参考訳）: 空間知能は建築、建築、科学、技術、工学、数学(STEM)、医学において重要である。 3次元空間回転を理解するには、言葉による記述や視覚的、インタラクティブな例が伴い、物体が3次元空間内でどのように向きを変えるかが説明される。近年の研究では、言語と視覚能力を持つ人工知能(AI)は、空間推論の限界に直面している。本稿では,物体の回転を理解するための生成AIの空間的能力について,その画像と言語処理機能を用いて検討した。本研究では, GPT-4モデルの空間的インテリジェンスと空間的回転過程の理解を, 改訂された空間的可視化テスト: 回転の可視化(PSVT:R)に基づいて検討した。次に,修正PSVT:Rに座標系軸の層を組み込み,GPT-4の性能の変動について検討した。また、3次元空間における物体の空間的回転を可視化する拡張現実(AR)シーンにおけるGPT-4の3次元回転の理解について検討し、回転過程を記述した補足的なテキスト情報や回転の数学的表現(例えば行列)を付加することにより、GPT-4の回転の理解の精度を高めた。その結果, GPT-4 は空間回転過程の理解に欠けるが,AR などの手法で提供可能な追加情報を用いて回転過程を理解できる可能性が示唆された。 AIの空間知能とARのインタラクティブな可視化能力を組み合わせることで、学生の空間学習活動へのガイダンス強化が期待できる。このような空間的ガイダンスは、空間的変換を理解するのに役立ち、アセンブリ、製造、製造といったプロセスもサポートする。

関連論文リスト

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
Spatial Reasoner: A 3D Inference Pipeline for XR Applications [0.0]
本稿では,記号的述語と関係性で幾何学的事実をブリッジする空間的推論フレームワークを提案する。その基礎は、空間的述語集合によって強化された、向き付けられた3D境界ボックス表現に依存している。導出した述語は空間知識グラフを形成し、パイプラインベースの推論モデルと組み合わせることで、空間クエリと動的ルール評価を可能にする。
論文参考訳（メタデータ） (2025-04-25T14:27:27Z)
GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。 GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文参考訳（メタデータ） (2024-11-29T11:23:15Z)
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
室内とテーブルトップのシーンを3Dスキャンで捉えた大規模な空間理解データセットであるRoboSpatialと,ロボット工学に関連する豊富な空間情報を付加したエゴセントリック画像を紹介する。実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
論文参考訳（メタデータ） (2024-11-25T16:21:34Z)
SOE: SO(3)-Equivariant 3D MRI Encoding [9.856654245845244]
本稿では,3次元空間における全ての回転に対して同値を強制する新しい3次元MRI符号化法を提案する。表現空間におけるこの幾何等式を明示的にモデル化することにより、入力画像空間に適用される任意の回転操作が埋め込み表現空間にも反映されることを保証する。我々は,ADNIデータセットのT1強調脳スキャンから,年齢予測とアルツハイマー病診断の下流課題に関して,2つの公開データセットの構造的MRIに基づいて事前訓練したSOEを評価した。
論文参考訳（メタデータ） (2024-10-15T20:47:48Z)
Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文参考訳（メタデータ） (2024-10-06T23:25:21Z)
SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-06-03T17:59:06Z)
Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。 LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2024-04-23T16:59:02Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
Unsupervised Object Representation Learning using Translation and Rotation Group Equivariant VAE [5.254093731341154]
TARGET-VAEは、トランスレーショナルおよびローテーショングループに等価な変分自動エンコーダフレームワークである。 TARGET-VAEは,従来の方法の病態を著しく改善し,回避する監督なしで,絡み合った表現を学習することを示す。極めて正確な教師なしのポーズと位置推定を行うことができる。
論文参考訳（メタデータ） (2022-10-24T02:08:19Z)
Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。 OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文参考訳（メタデータ） (2022-06-14T15:40:47Z)
H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文参考訳（メタデータ） (2022-03-02T17:10:49Z)
3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文参考訳（メタデータ） (2021-07-08T17:49:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。