論文の概要: HOReeNet: 3D-aware Hand-Object Grasping Reenactment
- arxiv url: http://arxiv.org/abs/2211.06195v1
- Date: Fri, 11 Nov 2022 13:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:29:49.844122
- Title: HOReeNet: 3D-aware Hand-Object Grasping Reenactment
- Title(参考訳): HOReeNet: 3D対応のハンドオブジェクトグラッピングの再現
- Authors: Changhwa Lee, Junuk Cha, Hansol Lee, Seongyeong Lee, Donguk Kim,
Seungryul Baek
- Abstract要約: 本稿では,手,オブジェクト,インタラクションを含む画像を操作する新しいタスクに取り組み,HOReeNetを提案する。
特に,ソース画像のオブジェクトを対象画像に転送することに興味があり,手の位置を3Dで操作することで,移動したオブジェクトを密に把握することに興味がある。
手・物体の相互作用を含む再現シナリオでは、手・物体間の3次元接触推論が強固に把握するために必要となるため、3次元再構成が不可欠となる。
- 参考スコア(独自算出の注目度): 5.486527369069553
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present HOReeNet, which tackles the novel task of manipulating images
involving hands, objects, and their interactions. Especially, we are interested
in transferring objects of source images to target images and manipulating 3D
hand postures to tightly grasp the transferred objects. Furthermore, the
manipulation needs to be reflected in the 2D image space. In our reenactment
scenario involving hand-object interactions, 3D reconstruction becomes
essential as 3D contact reasoning between hands and objects is required to
achieve a tight grasp. At the same time, to obtain high-quality 2D images from
3D space, well-designed 3D-to-2D projection and image refinement are required.
Our HOReeNet is the first fully differentiable framework proposed for such a
task. On hand-object interaction datasets, we compared our HOReeNet to the
conventional image translation algorithms and reenactment algorithm. We
demonstrated that our approach could achieved the state-of-the-art on the
proposed task.
- Abstract(参考訳): 本稿では,手,オブジェクト,インタラクションを含む画像を操作する新しいタスクに取り組むHOReeNetを提案する。
特に,光源画像の物体を対象画像に移動させ,三次元手姿勢を操作して移動物体を密に把握することに関心がある。
さらに、操作を2d画像空間に反映する必要がある。
手と物体の相互作用を含む再現シナリオでは、3次元の接触推論が密接な把握を達成するために必要となるため、3次元再構成が不可欠となる。
同時に、3D空間から高品質な2D画像を得るには、よく設計された3D-to-2Dプロジェクションと画像の精細化が必要である。
私たちのHOReeNetは、そのようなタスクのために提案された最初の完全に差別化可能なフレームワークです。
ハンドオブジェクトインタラクションデータセットでは,従来の画像翻訳アルゴリズムと再現アルゴリズムと比較した。
提案手法が提案課題の最先端を達成できることを実証した。
関連論文リスト
- GenHeld: Generating and Editing Handheld Objects [3.6078215038168473]
我々は3次元ハンドモデルや2次元画像に条件付き保持オブジェクトを合成する逆問題にGenHeldを提案する。
GenHeld 3Dは、オブジェクトコードと呼ばれるコンパクトなオブジェクト表現を使用して、大きなデータセットから可塑性保持オブジェクトを選択することができる。
GenHeld 2Dは、GenHeld 3Dの能力と拡散ベースの画像編集を組み合わせることで動作する。
論文 参考訳(メタデータ) (2024-06-07T16:31:41Z) - Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image [41.580285338167315]
本稿では,1枚のRGB画像から3次元手オブジェクトシーンを再構成する前に,手オブジェクト間のインタラクションを学習する方法を提案する。
我々は手形状を用いて手と物体形状の相対的な構成を制約する。
そこで,HandNeRFは,手動による新たなグリップ構成のシーンを,同等の手法よりも高精度に再構築可能であることを示す。
論文 参考訳(メタデータ) (2023-09-14T17:42:08Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Hand-Object Interaction Image Generation [135.87707468156057]
この仕事は、新しいタスク、すなわち手動オブジェクトのインタラクション画像生成に特化している。
与えられた手、オブジェクト、それらの相互作用状態の下で、条件付きハンドオブジェクト画像を生成することを目的としている。
このタスクは、AR/VRゲームやオンラインショッピングなど、多くの潜在的なアプリケーションシナリオにおいて、挑戦的で研究に値するものだ。
論文 参考訳(メタデータ) (2022-11-28T18:59:57Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。