論文の概要: AI's Spatial Intelligence: Evaluating AI's Understanding of Spatial Transformations in PSVT:R and Augmented Reality
- arxiv url: http://arxiv.org/abs/2411.06269v3
- Date: Tue, 19 Nov 2024 03:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:59.043444
- Title: AI's Spatial Intelligence: Evaluating AI's Understanding of Spatial Transformations in PSVT:R and Augmented Reality
- Title(参考訳): AIの空間知能:PSVT:Rと拡張現実におけるAIの空間変換理解の評価
- Authors: Uttamasha Monjoree, Wei Yan,
- Abstract要約: 3次元空間の回転を理解するには、言葉による記述や視覚的、インタラクティブな例が伴う。
近年の研究では、言語と視覚能力を備えた人工知能は、空間推論の限界に直面している。
我々は,その画像と言語処理機能を利用してオブジェクトの回転を理解する,生成AIの空間的能力について検討した。
- 参考スコア(独自算出の注目度): 6.531561475204309
- License:
- Abstract: Spatial intelligence is important in Architecture, Construction, Science, Technology, Engineering, and Mathematics (STEM), and Medicine. Understanding three-dimensional (3D) spatial rotations can involve verbal descriptions and visual or interactive examples, illustrating how objects change orientation in 3D space. Recent studies show Artificial Intelligence (AI) with language and vision capabilities still face limitations in spatial reasoning. In this paper, we have studied generative AI's spatial capabilities of understanding rotations of objects utilizing its image and language processing features. We examined the spatial intelligence of the GPT-4 model with vision in understanding spatial rotation process with diagrams based on the Revised Purdue Spatial Visualization Test: Visualization of Rotations (Revised PSVT:R). Next, we incorporated a layer of coordinate system axes on Revised PSVT:R to study the variations in GPT-4's performance. We also examined GPT-4's understanding of 3D rotations in Augmented Reality (AR) scenes that visualize spatial rotations of an object in 3D space and observed increased accuracy of GPT-4's understanding of the rotations by adding supplementary textual information depicting the rotation process or mathematical representations of the rotation (e.g., matrices). The results indicate that while GPT-4 as a major current Generative AI model lacks the understanding of a spatial rotation process, it has the potential to understand the rotation process with additional information that can be provided by methods such as AR. By combining the potentials in spatial intelligence of AI with AR's interactive visualization abilities, we expect to offer enhanced guidance for students' spatial learning activities. Such spatial guidance can benefit understanding spatial transformations and additionally support processes like assembly, fabrication, and manufacturing.
- Abstract(参考訳): 空間知能は建築、建築、科学、技術、工学、数学(STEM)、医学において重要である。
3次元空間回転を理解するには、言葉による記述や視覚的、インタラクティブな例が伴い、物体が3次元空間内でどのように向きを変えるかが説明される。
近年の研究では、言語と視覚能力を持つ人工知能(AI)は、空間推論の限界に直面している。
本稿では,物体の回転を理解するための生成AIの空間的能力について,その画像と言語処理機能を用いて検討した。
本研究では, GPT-4モデルの空間的インテリジェンスと空間的回転過程の理解を, 改訂された空間的可視化テスト: 回転の可視化(PSVT:R)に基づいて検討した。
次に,修正PSVT:Rに座標系軸の層を組み込み,GPT-4の性能の変動について検討した。
また、3次元空間における物体の空間的回転を可視化する拡張現実(AR)シーンにおけるGPT-4の3次元回転の理解について検討し、回転過程を記述した補足的なテキスト情報や回転の数学的表現(例えば行列)を付加することにより、GPT-4の回転の理解の精度を高めた。
その結果, GPT-4 は空間回転過程の理解に欠けるが,AR などの手法で提供可能な追加情報を用いて回転過程を理解できる可能性が示唆された。
AIの空間知能とARのインタラクティブな可視化能力を組み合わせることで、学生の空間学習活動へのガイダンス強化が期待できる。
このような空間的ガイダンスは、空間的変換を理解するのに役立ち、アセンブリ、製造、製造といったプロセスもサポートする。
関連論文リスト
- SOE: SO(3)-Equivariant 3D MRI Encoding [9.856654245845244]
本稿では,3次元空間における全ての回転に対して同値を強制する新しい3次元MRI符号化法を提案する。
表現空間におけるこの幾何等式を明示的にモデル化することにより、入力画像空間に適用される任意の回転操作が埋め込み表現空間にも反映されることを保証する。
我々は,ADNIデータセットのT1強調脳スキャンから,年齢予測とアルツハイマー病診断の下流課題に関して,2つの公開データセットの構造的MRIに基づいて事前訓練したSOEを評価した。
論文 参考訳(メタデータ) (2024-10-15T20:47:48Z) - Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Unsupervised Object Representation Learning using Translation and
Rotation Group Equivariant VAE [5.254093731341154]
TARGET-VAEは、トランスレーショナルおよびローテーショングループに等価な変分自動エンコーダフレームワークである。
TARGET-VAEは,従来の方法の病態を著しく改善し,回避する監督なしで,絡み合った表現を学習することを示す。
極めて正確な教師なしのポーズと位置推定を行うことができる。
論文 参考訳(メタデータ) (2022-10-24T02:08:19Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。
単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。
本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文 参考訳(メタデータ) (2022-03-02T17:10:49Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。