Fugu-MT 論文翻訳(概要): S2O: Static to Openable Enhancement for Articulated 3D Objects

論文の概要: S2O: Static to Openable Enhancement for Articulated 3D Objects

arxiv url: http://arxiv.org/abs/2409.18896v1
Date: Fri, 27 Sep 2024 16:34:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 08:01:28.108651
Title: S2O: Static to Openable Enhancement for Articulated 3D Objects
Title（参考訳）: S2O:Articulated 3D Objectsのオープン化と拡張
Authors: Denys Iliash, Hanxiao Jiang, Yiming Zhang, Manolis Savva, Angel X. Chang,
Abstract要約: 本稿では,静的な3次元オブジェクトを静的なオブジェクトから生成するS2Oタスクを紹介する。この課題に対処するための統一的なフレームワークを定式化し、オープンな3Dオブジェクトのデータセットをキュレートする。
参考スコア（独自算出の注目度）: 20.310491257189422
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite much progress in large 3D datasets there are currently few interactive 3D object datasets, and their scale is limited due to the manual effort required in their construction. We introduce the static to openable (S2O) task which creates interactive articulated 3D objects from static counterparts through openable part detection, motion prediction, and interior geometry completion. We formulate a unified framework to tackle this task, and curate a challenging dataset of openable 3D objects that serves as a test bed for systematic evaluation. Our experiments benchmark methods from prior work and simple yet effective heuristics for the S2O task. We find that turning static 3D objects into interactively openable counterparts is possible but that all methods struggle to generalize to realistic settings of the task, and we highlight promising future work directions.
Abstract（参考訳）: 大規模な3Dデータセットの進歩にもかかわらず、現時点ではインタラクティブな3Dオブジェクトデータセットは少ない。本研究では,静的な3次元オブジェクトを静的な部分検出,動作予測,内部形状の完備化によって対話的に生成するS2Oタスクを提案する。この課題に対処するための統一的なフレームワークを定式化し、体系的な評価のためのテストベッドとして機能するオープンな3Dオブジェクトの挑戦的なデータセットをキュレートする。実験では,S2Oタスクの先行作業と単純かつ効果的なヒューリスティックスから手法をベンチマークした。静的な3Dオブジェクトを対話的にオープンなオブジェクトに変換することは可能ですが、すべてのメソッドがタスクの現実的な設定に一般化するのに苦労していることに気付き、将来的な作業の方向性を強調します。

関連論文リスト

3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文参考訳（メタデータ） (2025-07-31T13:56:41Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。 SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。 SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-28T20:53:20Z)
Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。 GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文参考訳（メタデータ） (2024-11-29T11:23:15Z)
Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文参考訳（メタデータ） (2024-08-21T12:13:18Z)
Task-oriented Sequential Grounding in 3D Scenes [35.90034571439091]
本稿では,3次元シーンにおけるタスク指向の逐次グラウンド(Sequential Grounding)を提案する。エージェントは、屋内のシーンにターゲットオブジェクトのシーケンスを配置することで、日々の活動を完了するための詳細なステップバイステップの指示に従う必要がある。 SG3Dは22,346のタスクと112,236のステップが4,895の現実世界の3Dシーンにまたがる大規模データセットである。
論文参考訳（メタデータ） (2024-08-07T18:30:18Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds [45.87961177297602]
この研究は、人間中心環境におけるロボットのインタラクションと操作のための包括的なフレームワークに、最近の手法を統合することを目的としている。具体的には,コモディティ3Dスキャナの3次元再構成をオープン語彙のインスタンスセグメンテーションに活用する。本研究では,動的オブジェクト検索と引き出し開口を含む実世界の2つの実験において,モデルの性能とロバスト性を示す。
論文参考訳（メタデータ） (2024-04-18T18:01:15Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training [9.272389295055271]
本研究では,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。
論文参考訳（メタデータ） (2023-10-02T06:17:24Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)
VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文参考訳（メタデータ） (2021-06-28T07:47:31Z)
Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文参考訳（メタデータ） (2021-04-23T17:59:28Z)
Reconstructing Hand-Object Interactions in the Wild [71.16013096764046]
直接3D監視を必要としない最適化手法を提案する。利用可能なすべての関連データ(2Dバウンディングボックス、2Dハンドキーポイント、2Dインスタンスマスク、3Dオブジェクトモデル、3DインザラボMoCap)を利用して、3D再構築の制約を提供します。本手法はEPIC Kitchens と 100 Days of Hands のデータセットから, 難易度の高いデータに対して, 説得力のある再構築を行う。
論文参考訳（メタデータ） (2020-12-17T18:59:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。