論文の概要: Utonia: Toward One Encoder for All Point Clouds
- arxiv url: http://arxiv.org/abs/2603.03283v1
- Date: Tue, 03 Mar 2026 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.94767
- Title: Utonia: Toward One Encoder for All Point Clouds
- Title(参考訳): Utonia: すべてのポイントクラウドのためのワンエンコーダを目指して
- Authors: Yujia Zhang, Xiaoyang Wu, Yunhan Yang, Xianzhe Fan, Han Li, Yuechen Zhang, Zehao Huang, Naiyan Wang, Hengshuang Zhao,
- Abstract要約: Utoniaは、さまざまなドメインにまたがる単一の自己教師付きポイントエンコーダをトレーニングするための第一歩です。
Utoniaは、ドメイン間で転送される一貫した表現空間を学ぶ。
ユトニア表現は具体的・多モーダルな推論にも有用である。
- 参考スコア(独自算出の注目度): 66.5790440849756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We dream of a future where point clouds from all domains can come together to shape a single model that benefits them all. Toward this goal, we present Utonia, a first step toward training a single self-supervised point transformer encoder across diverse domains, spanning remote sensing, outdoor LiDAR, indoor RGB-D sequences, object-centric CAD models, and point clouds lifted from RGB-only videos. Despite their distinct sensing geometries, densities, and priors, Utonia learns a consistent representation space that transfers across domains. This unification improves perception capability while revealing intriguing emergent behaviors that arise only when domains are trained jointly. Beyond perception, we observe that Utonia representations can also benefit embodied and multimodal reasoning: conditioning vision-language-action policies on Utonia features improves robotic manipulation, and integrating them into vision-language models yields gains on spatial reasoning. We hope Utonia can serve as a step toward foundation models for sparse 3D data, and support downstream applications in AR/VR, robotics, and autonomous driving.
- Abstract(参考訳): すべてのドメインのポイントクラウドが集まって、それらすべてに利益をもたらす単一のモデルを形成する、未来を夢見ています。
この目標に向けて、Utoniaは、リモートセンシング、屋外LiDAR、屋内RGB-Dシーケンス、オブジェクト中心CADモデル、RGB専用ビデオから持ち上げた点雲など、さまざまな領域にまたがる単一のセルフ教師付きポイントトランスフォーマーエンコーダをトレーニングするための第一歩となる。
異なる知覚幾何学、密度、先行性にもかかわらず、ユトニアは領域をまたぐ一貫した表現空間を学ぶ。
この統合は、ドメインが共同で訓練されたときにのみ生じる興味深い行動を明らかにしながら、知覚能力を向上させる。
ユトニア特徴に対する視覚-言語-アクションポリシーの条件付けは、ロボット操作を改善し、視覚-言語モデルに統合することで、空間的推論に利益をもたらす。
Utoniaは、3Dデータを疎結合にするための基礎モデルとして機能し、AR/VR、ロボティクス、自動運転などの下流アプリケーションをサポートすることを願っている。
関連論文リスト
- PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation [48.807071017228964]
我々は,3次元の点流として共有された3次元空間における状態と動作を統一する,大規模な事前学習型3次元世界モデルであるPointWorldを紹介した。
リアルタイム(0.1秒)の推論速度により、PointWorldは、操作のためのモデル予測制御(MPC)フレームワークに効率的に統合できる。
本研究では,実世界のフランカロボットが,物体の剛体押圧,変形,調音操作を行うことのできる1つの事前学習チェックポイントを実証した。
論文 参考訳(メタデータ) (2026-01-07T10:29:12Z) - OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer [48.16706802780516]
一般的な3Dファウンデーションモデルは、多様なビジョンタスクの統合のトレンドを導い始めている。
OmniVGTは、トレーニングと推論の両方において、任意の数の補助モダリティを効果的に活用できる新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-13T17:59:01Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文 参考訳(メタデータ) (2025-08-25T02:01:09Z) - Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds [1.696186398088554]
本稿では視覚的視点取り(VPT)を行うために視覚言語モデル(VLM)を訓練するための概念的枠組みを提案する。
我々は、空間推論タスクの教師あり学習を可能にする、NVIDIA Omniverseで生成された合成データセットを提案する。
この研究は、対話型人間ロボットシナリオにおいて空間的理解が可能なAIシステムを具現化するための基礎的なステップとして機能する。
論文 参考訳(メタデータ) (2025-05-20T13:49:09Z) - Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning [58.69297999175239]
ロボット学習においては、異なるモードの異なる特徴のために観察空間が不可欠である。
本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 様々な観測空間がロボット学習に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-04T14:18:45Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - CRAVES: Controlling Robotic Arm with a Vision-based Economic System [96.56564257199474]
現実のタスクを達成するためにロボットアームを訓練することは、アカデミックと産業の両方で注目を集めている。
本研究は,この分野におけるコンピュータビジョンアルゴリズムの役割について論じる。
本稿では,3次元モデルを用いて大量の合成データを生成する方法を提案する。
論文 参考訳(メタデータ) (2018-12-03T13:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。