論文の概要: Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects
- arxiv url: http://arxiv.org/abs/2511.01294v2
- Date: Tue, 04 Nov 2025 07:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.154965
- Title: Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects
- Title(参考訳): Kinematify: 高DoF人工物体の開語彙合成
- Authors: Jiawei Wang, Dingyou Wang, Jiaming Hu, Qixuan Zhang, Jingyi Yu, Lan Xu,
- Abstract要約: 本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。
提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
- 参考スコア(独自算出の注目度): 59.51185639557874
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A deep understanding of kinematic structures and movable components is essential for enabling robots to manipulate objects and model their own articulated forms. Such understanding is captured through articulated objects, which are essential for tasks such as physical simulation, motion planning, and policy learning. However, creating these models, particularly for objects with high degrees of freedom (DoF), remains a significant challenge. Existing methods typically rely on motion sequences or strong assumptions from hand-curated datasets, which hinders scalability. In this paper, we introduce Kinematify, an automated framework that synthesizes articulated objects directly from arbitrary RGB images or textual descriptions. Our method addresses two core challenges: (i) inferring kinematic topologies for high-DoF objects and (ii) estimating joint parameters from static geometry. To achieve this, we combine MCTS search for structural inference with geometry-driven optimization for joint reasoning, producing physically consistent and functionally valid descriptions. We evaluate Kinematify on diverse inputs from both synthetic and real-world environments, demonstrating improvements in registration and kinematic topology accuracy over prior work.
- Abstract(参考訳): 運動構造と可動部品の深い理解は、ロボットが物体を操り、自身の調音形式をモデル化できるようにするために不可欠である。
このような理解は、物理的シミュレーション、運動計画、政策学習といったタスクに不可欠な、明瞭なオブジェクトを通して獲得される。
しかし、特に自由度の高いオブジェクト(DoF)のためにこれらのモデルを作成することは、依然として大きな課題である。
既存の手法は通常、手作業によるデータセットの動作シーケンスや強い仮定に依存しており、スケーラビリティを妨げている。
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成する自動フレームワークであるKinematifyを紹介する。
我々の手法は2つの課題に対処する。
(i)高DoFオブジェクトに対するキネマティックトポロジと推論
(ii)静的幾何から関節パラメータを推定する。
これを実現するために,構造推論のためのMCTS探索と幾何学による共同推論の最適化を組み合わせ,物理的に一貫性があり,機能的に有効な記述を生成する。
我々は, 人工環境と実世界の環境の両方からの多様な入力に基づいてKinematifyを評価し, 事前作業よりも登録精度とキネマティックトポロジーの精度の向上を実証した。
関連論文リスト
- URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - GaussianArt: Unified Modeling of Geometry and Motion for Articulated Objects [4.717906057951389]
本稿では,3次元ガウスモデルを用いて幾何学と運動を共同でモデル化する統一表現を提案する。
この定式化により、運動分解の堅牢性が向上し、最大で20個の部分を持つ明瞭な物体をサポートする。
提案手法は, 広範囲な物体の形状復元と動き推定において, 常に優れた精度を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-20T17:59:08Z) - ScrewSplat: An End-to-End Method for Articulated Object Recognition [11.498029485126045]
ScrewSplatは単純なエンドツーエンドの手法で、RGB観測のみで動作する。
提案手法は,多種多様な対象物に対して,最先端の認識精度を達成できることを実証する。
論文 参考訳(メタデータ) (2025-08-04T07:45:31Z) - Guiding Human-Object Interactions with Rich Geometry and Relations [21.528466852204627]
既存の手法では、物体の遠心点や人間に最も近い点のような単純化された物体表現に頼り、物理的に可算な運動を達成する。
ROGは、HOIに固有の関係をリッチな幾何学的詳細で表現する新しいフレームワークである。
ROGは, 合成HOIのリアリズム評価と意味的精度において, 最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-26T02:57:18Z) - Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation [88.83749146867665]
既存のアプローチは、遠く離れた次のベストなエンドエフェクタのポーズを予測するポリシーを学びます。
すると、運動に対する対応する関節回転角を逆運動学を用いて計算する。
本稿では,Kinematics 拡張空間テンポアル gRaph diffuser を提案する。
論文 参考訳(メタデータ) (2025-03-13T17:48:35Z) - LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。