論文の概要: Predictive and Generative Neural Networks for Object Functionality
- arxiv url: http://arxiv.org/abs/2006.15520v1
- Date: Sun, 28 Jun 2020 05:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 02:22:32.783999
- Title: Predictive and Generative Neural Networks for Object Functionality
- Title(参考訳): オブジェクト機能のための予測および生成ニューラルネットワーク
- Authors: Ruizhen Hu, Zihao Yan, Jingwen Zhang, Oliver van Kaick, Ariel Shamir,
Hao Zhang, Hui Huang
- Abstract要約: 我々はこの成果を再現するために予測的で生成的な深層畳み込みニューラルネットワークを開発した。
本研究は,人・物・物間相互作用を特徴とする人・物・物間相互作用を特徴とする3Dオブジェクトの機能に着目した。
- 参考スコア(独自算出の注目度): 26.519771232882256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can predict the functionality of an object even without any
surroundings, since their knowledge and experience would allow them to
"hallucinate" the interaction or usage scenarios involving the object. We
develop predictive and generative deep convolutional neural networks to
replicate this feat. Specifically, our work focuses on functionalities of
man-made 3D objects characterized by human-object or object-object
interactions. Our networks are trained on a database of scene contexts, called
interaction contexts, each consisting of a central object and one or more
surrounding objects, that represent object functionalities. Given a 3D object
in isolation, our functional similarity network (fSIM-NET), a variation of the
triplet network, is trained to predict the functionality of the object by
inferring functionality-revealing interaction contexts. fSIM-NET is
complemented by a generative network (iGEN-NET) and a segmentation network
(iSEG-NET). iGEN-NET takes a single voxelized 3D object with a functionality
label and synthesizes a voxelized surround, i.e., the interaction context which
visually demonstrates the corresponding functionality. iSEG-NET further
separates the interacting objects into different groups according to their
interaction types.
- Abstract(参考訳): 人間は、周囲の環境がなくても、オブジェクトの機能を予測することができる。その知識と経験は、オブジェクトが関与するインタラクションや利用シナリオを「幻覚」できるからだ。
我々は、この偉業を再現するために予測および生成的な深層畳み込みニューラルネットワークを開発する。
特に,人間と物体の相互作用を特徴とする人工3次元物体の機能に着目した。
我々のネットワークは、相互作用コンテキストと呼ばれるシーンコンテキストのデータベースに基づいてトレーニングされており、それぞれが中心オブジェクトと1つ以上の周辺オブジェクトで構成され、オブジェクトの機能を表す。
3dオブジェクトが独立して与えられると、トリプレットネットワークのバリエーションである関数類似性ネットワーク(fsim-net)が、機能回復インタラクションコンテキストを推論してオブジェクトの機能を予測するように訓練される。
fSIM-NETは生成ネットワーク(iGEN-NET)とセグメンテーションネットワーク(iSEG-NET)によって補完される。
iGEN-NETは、機能ラベルを持つ単一のvooxelized 3Dオブジェクトを取り込み、対応する機能を視覚的に示すインタラクションコンテキストとして、vooxelized surroundingを合成する。
iSEG-NETは、相互作用するオブジェクトを、その相互作用タイプに応じて異なるグループに分離する。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。