論文の概要: Understanding Contexts Inside Robot and Human Manipulation Tasks through
a Vision-Language Model and Ontology System in a Video Stream
- arxiv url: http://arxiv.org/abs/2003.01163v1
- Date: Mon, 2 Mar 2020 19:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 05:41:23.091688
- Title: Understanding Contexts Inside Robot and Human Manipulation Tasks through
a Vision-Language Model and Ontology System in a Video Stream
- Title(参考訳): 映像ストリームにおける視覚言語モデルとオントロジーシステムによるロボット内状況と人間の操作課題の理解
- Authors: Chen Jiang, Masood Dehghan, Martin Jagersand
- Abstract要約: 本稿では,ロボットと人間の操作の双方に対して,厳密な制約付き知識領域の下で視覚データセットを提案する。
本稿では,視覚的注意とコモンセンス知識に満ちた知識グラフを組み合わせて生成する手法を提案する。
提案手法により,ロボットはリアルタイム映像を視聴することで,人間の意図的な動作を模倣することができる。
- 参考スコア(独自算出の注目度): 4.450615100675747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manipulation tasks in daily life, such as pouring water, unfold intentionally
under specialized manipulation contexts. Being able to process contextual
knowledge in these Activities of Daily Living (ADLs) over time can help us
understand manipulation intentions, which are essential for an intelligent
robot to transition smoothly between various manipulation actions. In this
paper, to model the intended concepts of manipulation, we present a vision
dataset under a strictly constrained knowledge domain for both robot and human
manipulations, where manipulation concepts and relations are stored by an
ontology system in a taxonomic manner. Furthermore, we propose a scheme to
generate a combination of visual attentions and an evolving knowledge graph
filled with commonsense knowledge. Our scheme works with real-world camera
streams and fuses an attention-based Vision-Language model with the ontology
system. The experimental results demonstrate that the proposed scheme can
successfully represent the evolution of an intended object manipulation
procedure for both robots and humans. The proposed scheme allows the robot to
mimic human-like intentional behaviors by watching real-time videos. We aim to
develop this scheme further for real-world robot intelligence in Human-Robot
Interaction.
- Abstract(参考訳): 水を注ぐなどの日常生活における操作タスクは、特殊な操作コンテキストで意図的に展開される。
日常生活活動(ADL)における文脈的知識を時間とともに処理できることは、知的ロボットが様々な操作動作をスムーズに移行するために不可欠な操作意図を理解するのに役立つ。
本稿では,操作の意図する概念をモデル化するために,ロボットと人間の操作の両方に対して厳密に制約された知識領域の下で,操作の概念と関係を分類学的な方法でオントロジー系に格納するビジョンデータセットを提案する。
さらに,視覚注意と常識知識に満ちた進化する知識グラフの組み合わせを生成する手法を提案する。
本手法は実世界のカメラストリームと連動し,オントロジーシステムと注意に基づく視覚言語モデルと融合する。
実験の結果,提案手法はロボットと人間の両方を対象とした対象操作手順の進化をうまく表現できることがわかった。
提案手法により,ロボットはリアルタイム映像を視聴することで,人間の意図的な動作を模倣することができる。
我々は,人間-ロボットインタラクションにおける実世界のロボットインテリジェンスのために,この手法をさらに発展させることを目指している。
関連論文リスト
- Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - A Road-map to Robot Task Execution with the Functional Object-Oriented
Network [77.93376696738409]
関数型オブジェクト指向ネットワーク(FOON)はロボットの知識グラフ表現である。
FOONは、二部グラフの形で、ロボットの環境やタスクに対する理解に関係のある象徴的あるいは高レベルな情報を含んでいる。
論文 参考訳(メタデータ) (2021-06-01T00:43:04Z) - Learning by Watching: Physical Imitation of Manipulation Skills from
Human Videos [28.712673809577076]
本稿では,ロボット操作作業のための人間ビデオからの物理模倣手法を提案する。
人間のビデオをロボットドメインに翻訳し,教師なしのキーポイント検出を行う知覚モジュールを設計した。
リーチ、プッシュ、スライディング、コーヒー製造、引き出しの閉鎖を含む5つのロボット操作タスクに対するアプローチの有効性を評価します。
論文 参考訳(メタデータ) (2021-01-18T18:50:32Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。