論文の概要: OakInk: A Large-scale Knowledge Repository for Understanding Hand-Object
Interaction
- arxiv url: http://arxiv.org/abs/2203.15709v1
- Date: Tue, 29 Mar 2022 16:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 15:37:35.737025
- Title: OakInk: A Large-scale Knowledge Repository for Understanding Hand-Object
Interaction
- Title(参考訳): OakInk: ハンドオブジェクトインタラクションを理解するための大規模知識リポジトリ
- Authors: Lixin Yang, Kailin Li, Xinyu Zhan, Fei Wu, Anran Xu, Liu Liu, Cewu Lu
- Abstract要約: 本研究は,多モード・リッチアノテーション付き知識リポジトリであるOakInkを提案し,手-物体相互作用の視覚的および認知的理解を実現する。
オークで選択された100のオブジェクトとのリッチなヒューマンインタラクションを記録し、そのインタラクションをTinkを介して仮想オブジェクトに転送する。
OakInkには、5万の異なる可視性と意図指向のハンドオブジェクトインタラクションが含まれている。
- 参考スコア(独自算出の注目度): 42.01090361340039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning how humans manipulate objects requires machines to acquire knowledge
from two perspectives: one for understanding object affordances and the other
for learning human's interactions based on the affordances. Even though these
two knowledge bases are crucial, we find that current databases lack a
comprehensive awareness of them. In this work, we propose a multi-modal and
rich-annotated knowledge repository, OakInk, for visual and cognitive
understanding of hand-object interactions. We start to collect 1,800 common
household objects and annotate their affordances to construct the first
knowledge base: Oak. Given the affordance, we record rich human interactions
with 100 selected objects in Oak. Finally, we transfer the interactions on the
100 recorded objects to their virtual counterparts through a novel method:
Tink. The recorded and transferred hand-object interactions constitute the
second knowledge base: Ink. As a result, OakInk contains 50,000 distinct
affordance-aware and intent-oriented hand-object interactions. We benchmark
OakInk on pose estimation and grasp generation tasks. Moreover, we propose two
practical applications of OakInk: intent-based interaction generation and
handover generation. Our datasets and source code are publicly available at
https://github.com/lixiny/OakInk.
- Abstract(参考訳): 人間がどのようにオブジェクトを操作するかを学ぶには、機械が2つの視点から知識を得る必要がある。
これら2つの知識基盤は重要ですが、現在のデータベースにはそれらに対する包括的な認識が欠けていることが分かりました。
本研究では,ハンド・オブジェクト間インタラクションの視覚的および認知的理解のためのマルチモーダル・リッチ・アノテート知識レポジトリであるoakinkを提案する。
私たちは1,800の一般的な家庭用オブジェクトを収集し、最初の知識ベースを構築するための余裕を注釈で示し始めます。
余裕があれば、オークで選ばれた100のオブジェクトとのリッチなヒューマンインタラクションを記録します。
最後に、100個の記録されたオブジェクト上のインタラクションを、新しい方法で仮想オブジェクトに転送する。
記録および転送された手オブジェクトの相互作用は、第2の知識ベースを構成する。
その結果、OakInkには5万の異なる可視性と意図指向のハンドオブジェクトインタラクションが含まれている。
ポーズ推定と生成タスクの把握についてOakInkをベンチマークした。
さらに,OakInkの2つの実践的応用として,意図に基づくインタラクション生成とハンドオーバ生成を提案する。
データセットとソースコードはhttps://github.com/lixiny/OakInk.comで公開されています。
関連論文リスト
- Robo-ABC: Affordance Generalization Beyond Categories via Semantic
Correspondence for Robot Manipulation [20.69293648286978]
本稿では,ロボット操作のためのフレームワークであるRobo-ABCについて紹介する。
本稿では,Robo-ABCが視覚的可視性検索の精度を大幅に向上させることを示す。
Robo-ABCは85.7%の成功率を達成した。
論文 参考訳(メタデータ) (2024-01-15T06:02:30Z) - CaSAR: Contact-aware Skeletal Action Recognition [47.249908147135855]
コンタクト対応骨格行動認識(CaSAR)と呼ばれる新しいフレームワークを提案する。
CaSARは空間情報を包含する手オブジェクト相互作用の新たな表現を使用する。
我々のフレームワークは、アクションシーケンスの各フレームのオブジェクトに触れたり、遠ざかったりする方法を学び、この情報を使ってアクションクラスを予測することができる。
論文 参考訳(メタデータ) (2023-09-17T09:42:40Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - Self-Supervised Learning of Action Affordances as Interaction Modes [25.16302650076381]
本研究は,音声オブジェクトとの有用な相互作用の事前の教師なし学習に取り組む。
インタラクトモードを学習するために、シミュレータの奥行きセンサーへのアクセスのみを前提としています。
我々のモデルは、人間のインタラクションのほとんどのモードをカバーし、既存の手頃な学習方法よりも優れており、トレーニング中に見たことのないオブジェクトに一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-27T19:58:11Z) - Beyond Object Recognition: A New Benchmark towards Object Concept
Learning [57.94446186103925]
本稿では,オブジェクト理解の包絡を推し進めるための課題であるオブジェクト概念学習タスクを提案する。
機械は、オブジェクトの余裕を推論し、同時に理由を与える必要がある。
OCLの因果構造を解析することにより、ベースラインである Object Concept Reasoning Network (OCRN) を提示する。
論文 参考訳(メタデータ) (2022-12-06T02:11:34Z) - Learning by Asking Questions for Knowledge-based Novel Object
Recognition [64.55573343404572]
実世界のオブジェクト認識には、認識すべきオブジェクトクラスが多数存在する。教師付き学習に基づく従来の画像認識は、トレーニングデータに存在するオブジェクトクラスのみを認識できるため、現実の世界においては限定的な適用性を有する。
そこで本研究では,モデルが新たなオブジェクトを瞬時に認識するのに役立つ質問生成を通じて,外部知識を取得するための枠組みについて検討する。
我々のパイプラインは、オブジェクトベースのオブジェクト認識と、新しい知識を得るために知識を意識した質問を生成する質問生成という2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-10-12T02:51:58Z) - H2O: A Benchmark for Visual Human-human Object Handover Analysis [45.27427828040923]
ヒトとヒトのオブジェクトハンドオーバを視覚的に解析するための新しいリッチアノテートデータセットH2Oを提案する。
データセットには、30のオブジェクトを互いに渡す15人を含む18kのビデオクリップが含まれている。
視覚に基づくタスクを複数サポートできるが、そこからはReceer Grasp Prediction と呼ばれる未探索のタスクに対して、ベースラインメソッド RGPNet が具体的に提供される。
論文 参考訳(メタデータ) (2021-04-23T08:30:54Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z) - Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。
本稿では,厳密な把握を学習するためのアプローチを提案する。
私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文 参考訳(メタデータ) (2020-09-03T04:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。