論文の概要: Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video
- arxiv url: http://arxiv.org/abs/2407.13856v1
- Date: Thu, 18 Jul 2024 18:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 21:29:41.778260
- Title: Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video
- Title(参考訳): エゴセントリックビデオにおけるタスクの同時局所化とアフォーダンス予測
- Authors: Zachary Chavis, Hyun Soo Park, Stephen J. Guy,
- Abstract要約: 本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
- 参考スコア(独自算出の注目度): 18.14234312389889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have shown great success as foundational models for downstream vision and natural language applications in a variety of domains. However, these models lack the spatial understanding necessary for robotics applications where the agent must reason about the affordances provided by the 3D world around them. We present a system which trains on spatially-localized egocentric videos in order to connect visual input and task descriptions to predict a task's spatial affordance, that is the location where a person would go to accomplish the task. We show our approach outperforms the baseline of using a VLM to map similarity of a task's description over a set of location-tagged images. Our learning-based approach has less error both on predicting where a task may take place and on predicting what tasks are likely to happen at the current location. The resulting system enables robots to use egocentric sensing to navigate to physical locations of novel tasks specified in natural language.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々な領域における下流視覚と自然言語アプリケーションの基礎モデルとして大きな成功を収めている。
しかし、これらのモデルにはロボット工学の応用に必要な空間的理解が欠如しており、エージェントは周囲の3D世界が提供する余裕について考える必要がある。
本研究では,視覚的インプットとタスク記述を接続してタスクの空間的余裕を予測するために,空間的局所化された自我中心の動画をトレーニングするシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
学習ベースのアプローチでは、タスクの実施場所の予測と、現在の場所でのタスクの発生率の予測の両方において、エラーが少なくなっています。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
関連論文リスト
- VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Distilling Internet-Scale Vision-Language Models into Embodied Agents [24.71298634838615]
本稿では,事前学習型視覚言語モデル (VLM) を用いてエンボディエージェントの監視を行う。
モデル蒸留と後視体験リプレイ(HER)のアイデアを組み合わせて,エージェントの振る舞いを記述する言語を遡及的に生成する。
我々の研究は、インターネットスケールのVLMを使うための新しい効果的な方法を概説し、そのようなモデルによって獲得された汎用的な言語基盤を再利用して、エンボディエージェントにタスク関連グラウンドを指導する。
論文 参考訳(メタデータ) (2023-01-29T18:21:05Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。