論文の概要: Real2Code: Reconstruct Articulated Objects via Code Generation
- arxiv url: http://arxiv.org/abs/2406.08474v2
- Date: Thu, 13 Jun 2024 17:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 13:45:10.050439
- Title: Real2Code: Reconstruct Articulated Objects via Code Generation
- Title(参考訳): Real2Code: コード生成によるArticulated Objectの再構築
- Authors: Zhao Mandi, Yijia Weng, Dominik Bauer, Shuran Song,
- Abstract要約: Real2Codeは、コード生成を通じて記述されたオブジェクトを再構築する新しいアプローチである。
まず,画像分割モデルと形状完備モデルを用いて部分形状を再構成する。
オブジェクト指向言語モデルに入力されたオブジェクト指向境界ボックスでオブジェクト部品を表現し、コードとして関節の調音を予測する。
- 参考スコア(独自算出の注目度): 22.833809817357395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Real2Code, a novel approach to reconstructing articulated objects via code generation. Given visual observations of an object, we first reconstruct its part geometry using an image segmentation model and a shape completion model. We then represent the object parts with oriented bounding boxes, which are input to a fine-tuned large language model (LLM) to predict joint articulation as code. By leveraging pre-trained vision and language models, our approach scales elegantly with the number of articulated parts, and generalizes from synthetic training data to real world objects in unstructured environments. Experimental results demonstrate that Real2Code significantly outperforms previous state-of-the-art in reconstruction accuracy, and is the first approach to extrapolate beyond objects' structural complexity in the training set, and reconstructs objects with up to 10 articulated parts. When incorporated with a stereo reconstruction model, Real2Code also generalizes to real world objects from a handful of multi-view RGB images, without the need for depth or camera information.
- Abstract(参考訳): コード生成による音声オブジェクトの再構成のための新しいアプローチであるReal2Codeを提案する。
対象物の視覚的観察から,まず画像分割モデルと形状完備モデルを用いて部分形状を再構成する。
次に,オブジェクト指向言語モデル (LLM) に入力された有向境界ボックスを用いて対象部品を表現し,コードとしての関節音節の予測を行う。
事前学習された視覚と言語モデルを利用することで, 合成学習データから非構造化環境における実世界オブジェクトへの一般化を行う。
実験結果から,Real2Codeは従来の再現精度を著しく上回り,トレーニングセットにおけるオブジェクトの構造的複雑さを超越し,最大10個の明瞭なパーツでオブジェクトを再構成する最初のアプローチであることがわかった。
ステレオ再構成モデルに組み込むと、Real2Codeは、深度やカメラ情報を必要とせずに、少数のマルチビューRGB画像から現実世界のオブジェクトに一般化する。
関連論文リスト
- ShapeGraFormer: GraFormer-Based Network for Hand-Object Reconstruction from a Single Depth Map [11.874184782686532]
そこで本研究では, 現実的な3次元物体形状に対する最初のアプローチを提案し, 一つの深度マップから復元する。
我々のパイプラインは、入力されたボキセル化深度に1対1のマッピングを持つ、ボキセル化ハンドオブジェクト形状も予測する。
さらに、手動オブジェクトの相互作用に基づいて再構成された形状を洗練する別のGraFormerコンポーネントを追加する影響を示す。
論文 参考訳(メタデータ) (2023-10-18T09:05:57Z) - Iterative Superquadric Recomposition of 3D Objects from Multiple Views [77.53142165205283]
2次元ビューから直接3次元スーパークワッドリックを意味部品として用いたオブジェクトを再構成するフレームワークISCOを提案する。
我々のフレームワークは、再構成エラーが高い場合に、反復的に新しいスーパークワッドリックを追加します。
これは、野生の画像からでも、より正確な3D再構成を提供する。
論文 参考訳(メタデータ) (2023-09-05T10:21:37Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from
Monocular RGB Videos [30.541606989348377]
MOLTRはモノクロ画像シーケンスとカメラポーズのみを用いたオブジェクト中心マッピングのソリューションである。
rgbカメラが周囲のビデオをキャプチャすると、複数のオブジェクトをオンライン形式でローカライズし、追跡し、再構築することができる。
屋内および屋外シーンのベンチマークデータセットのローカリゼーション、追跡、および再構築を評価します。
論文 参考訳(メタデータ) (2020-12-09T23:15:08Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z) - 3D Reconstruction of Novel Object Shapes from Single Images [23.016517962380323]
提案するSDFNetは,目に見える形状と見えない形状の最先端性能を実現する。
本研究は, 画像形状再構成の大規模評価を行った最初の試みである。
論文 参考訳(メタデータ) (2020-06-14T00:34:26Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z) - Learning Unsupervised Hierarchical Part Decomposition of 3D Objects from
a Single RGB Image [102.44347847154867]
プリミティブの集合として3次元オブジェクトの幾何を共同で復元できる新しい定式化を提案する。
我々のモデルは、プリミティブのバイナリツリーの形で、様々なオブジェクトの高レベルな構造的分解を復元する。
ShapeNet と D-FAUST のデータセットを用いた実験により,部品の組織化を考慮すれば3次元形状の推論が容易になることが示された。
論文 参考訳(メタデータ) (2020-04-02T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。