論文の概要: Analogical Trajectory Transfer
- arxiv url: http://arxiv.org/abs/2605.14393v1
- Date: Thu, 14 May 2026 05:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.638009
- Title: Analogical Trajectory Transfer
- Title(参考訳): アナロジカルな軌道伝達
- Authors: Junho Kim, Eun Sun Lee, Gwangtak Bae, Seunggu Kang, Young Min Kim,
- Abstract要約: そこでは,1つの3次元環境における運動軌跡を意味的に類似した場所へ変換することを目的とする。
このようなキャパシティは、AR/VRコプレゼンス、コンテンツ生成、ロボット工学などの応用で、機械が類似した空間推論を行うことを可能にする。
- 参考スコア(独自算出の注目度): 22.15303932975578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study analogical trajectory transfer, where the goal is to translate motion trajectories in one 3D environment to a semantically analogous location in another. Such a capacity would enable machines to perform analogical spatial reasoning, with applications in AR/VR co-presence, content creation, and robotics. However, even semantically similar scenes can still differ substantially in object placement, scale, and layout, so naively matching semantics leads to collisions or geometric distortions. Furthermore, finding where each trajectory point should transfer to has a large search space, as the mapping must preserve semantics and functionality without tearing the trajectory apart or causing collisions. Our key insight is to decompose the problem into spatially segregated subproblems and merge their solutions to produce semantically consistent and spatially coherent transfers. Specifically, we partition scenes into object-centric clusters and estimate cross-scene mappings via hierarchical smooth map prediction, using 3D foundation model features that encode contextual information from object and open-space arrangements. We then combinatorially assemble the per-cluster maps into an initial transfer and refine the result to remove collisions and distortions, yielding a spatially coherent trajectory. Our method does not require training, attains a fast runtime around 0.6 seconds, and outperforms baselines based on LLMs, VLMs, and scene graph matching. We further showcase applications in virtual co-presence, multi-trajectory transfer, camera transfer, and human-to-robot motion transfer, which indicates the broad applicability of our work to AR/VR and robotics.
- Abstract(参考訳): そこでは,1つの3次元環境における運動軌跡を意味的に類似した場所へ変換することを目的とする。
このようなキャパシティは、AR/VRコプレゼンス、コンテンツ生成、ロボット工学などの応用で、機械が類似した空間推論を行うことを可能にする。
しかし、意味的に類似したシーンであっても、オブジェクトの配置、スケール、レイアウトにおいて大きな違いがあるため、視覚的に一致するセマンティクスは衝突や幾何学的歪みにつながる。
さらに、各軌道点の移動位置は、軌道を分解したり衝突を引き起こすことなく意味や機能を保たなければならないため、大きな探索空間を持つ必要がある。
我々の重要な洞察は、問題を空間的に分離されたサブプロブレムに分解し、それらの解をマージして意味論的に一貫性があり、空間的に一貫性のある遷移を生成することである。
具体的には、シーンをオブジェクト中心のクラスタに分割し、階層的な滑らかなマップ予測を通じて、オブジェクトとオープンスペースのアレンジメントからコンテキスト情報をエンコードする3D基礎モデル機能を用いて、クロスシーンマッピングを推定する。
次に、クラスタごとのマップを初期転送に組み合わせて結果を洗練し、衝突や歪みを除去し、空間的コヒーレントな軌道を導出する。
我々の手法はトレーニングを必要とせず、0.6秒程度の高速ランタイムを実現し、LLM、VLM、シーングラフマッチングに基づいてベースラインを上回ります。
さらに、バーチャルコプレゼンス、マルチトラック転送、カメラ転送、人間とロボットのモーショントランスファーの応用について紹介し、AR/VRおよびロボティクスへの我々の取り組みの広範な適用性を示す。
関連論文リスト
- GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes [47.88691731631585]
GMTは、現実的でゴール指向のオブジェクトトラジェクトリを生成するマルチモーダルトランスフォーマーフレームワークである。
人工的および実世界のベンチマークの実験では、GMTは最先端の人間の動きや人間と物体の相互作用のベースラインより優れていることが示されている。
論文 参考訳(メタデータ) (2026-03-18T17:54:35Z) - OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms [33.40889181799252]
言語誘導型エンボディナビゲーションでは、エージェントがオブジェクト参照命令を解釈し、複数の部屋を探索し、参照されたターゲットをローカライズし、それに対する信頼できる動きを実行する必要がある。
OmniVLNは、全方位3次元知覚とトークン効率の高い階層的推論を、空中と地上の両方で組み合わせたゼロショット視覚言語ナビゲーションフレームワークである。
実験により、提案した階層インタフェースは空間参照精度を77.27%から93.18%に改善し、マルチルームの乱雑な設定で累積的なプロンプトトークンを61.7%削減し、フラットで最大11.68%のナビゲーション成功率向上を実現した。
論文 参考訳(メタデータ) (2026-03-18T04:26:30Z) - Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming [79.81527946524098]
RoamScene3Dはセマンティックガイダンスと空間生成のギャップを埋める新しいフレームワークである。
我々は、オブジェクト関係を符号化するシーングラフを構築するために、視覚言語モデル(VLM)を用いる。
静的な2Dプリミティブの制約を軽減するため、合成パノラマデータセットに微調整されたモーションインジェクトインペインティングモデルを導入する。
論文 参考訳(メタデータ) (2026-01-27T10:10:55Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - Learning 3D Scene Analogies with Neural Contextual Scene Maps [17.545689536966265]
3Dシーンの類似は、空間的関係を整列する3Dシーン領域間の滑らかなマップである。
本稿では,意味的および幾何学的文脈を要約した記述体フィールドを抽出する,ニューラルネットワークによるシーンマップを提案する。
様々な屋内シーンにおけるシーンの類似点の同定と軌跡の伝達におけるアプローチの有効性を実験により実証した。
論文 参考訳(メタデータ) (2025-03-20T06:49:33Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。