論文の概要: Task Success Prediction and Open-Vocabulary Object Manipulation
- arxiv url: http://arxiv.org/abs/2412.19112v1
- Date: Thu, 26 Dec 2024 08:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:09.761405
- Title: Task Success Prediction and Open-Vocabulary Object Manipulation
- Title(参考訳): タスク成功予測とオープン語彙オブジェクト操作
- Authors: Motonari Kambara, Komei Sugiura,
- Abstract要約: 本研究では,オープンボキャブラリオブジェクト操作の今後の成功や失敗を予測するタスクについて述べる。
このタスクでは、自然言語命令、操作前の自我中心のビューイメージ、与えられたエンドエフェクタ・トラジェクトリに基づいて予測を行う必要がある。
本稿では,与えられた軌跡や画像と自然言語の指示を一致させることで,成功や失敗を予測できる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License:
- Abstract: This study addresses a task designed to predict the future success or failure of open-vocabulary object manipulation. In this task, the model is required to make predictions based on natural language instructions, egocentric view images before manipulation, and the given end-effector trajectories. Conventional methods typically perform success prediction only after the manipulation is executed, limiting their efficiency in executing the entire task sequence. We propose a novel approach that enables the prediction of success or failure by aligning the given trajectories and images with natural language instructions. We introduce Trajectory Encoder to apply learnable weighting to the input trajectories, allowing the model to consider temporal dynamics and interactions between objects and the end effector, improving the model's ability to predict manipulation outcomes accurately. We constructed a dataset based on the RT-1 dataset, a large-scale benchmark for open-vocabulary object manipulation tasks, to evaluate our method. The experimental results show that our method achieved a higher prediction accuracy than baseline approaches.
- Abstract(参考訳): 本研究では,オープンボキャブラリオブジェクト操作の今後の成功や失敗を予測するタスクに対処する。
このタスクでは、自然言語命令、操作前の自我中心のビューイメージ、与えられたエンドエフェクタ・トラジェクトリに基づいて予測を行う必要がある。
従来の手法では、操作の実行後にのみ成功予測を実行し、タスクシーケンス全体を実行する際の効率を制限している。
本稿では,与えられた軌跡や画像と自然言語の指示を一致させることで,成功や失敗を予測できる新しい手法を提案する。
本稿では,学習可能な重み付けを入力軌跡に適用し,オブジェクトとエンドエフェクタ間の時間的ダイナミクスと相互作用をモデルが考慮し,モデルの操作結果を正確に予測する能力を向上させるために,トラジェクトリエンコーダを提案する。
オープン語彙オブジェクト操作タスクの大規模ベンチマークであるRT-1データセットに基づくデータセットを構築し,提案手法の評価を行った。
実験の結果,本手法はベースライン手法よりも高い精度で予測できることがわかった。
関連論文リスト
- Certified Human Trajectory Prediction [66.1736456453465]
交通予知は自動運転車に不可欠な役割を担っている。
本稿では,軌道予測作業に適した認証手法を提案する。
非有界出力や変異モダリティを含む、軌道予測に関連する固有の課題に対処する。
論文 参考訳(メタデータ) (2024-03-20T17:41:35Z) - A Supervised Contrastive Learning Pretrain-Finetune Approach for Time
Series [15.218841180577135]
本稿では,教師付きコントラスト学習を利用して,事前学習データセット内の特徴を識別する新しい事前学習手法を提案する。
次に、事前学習データセットの学習力学とより密に連携することで、目標データの正確な予測を強化するための微調整手順を提案する。
論文 参考訳(メタデータ) (2023-11-21T02:06:52Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - A Self-supervised Contrastive Learning Method for Grasp Outcomes
Prediction [9.865029065814236]
比較学習法は,結果予測の把握に有効であることを示す。
本研究は,ロボットグルーピング分野への応用において,コントラスト学習手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-06-26T06:06:49Z) - Recognition and Prediction of Surgical Gestures and Trajectories Using
Transformer Models in Robot-Assisted Surgery [10.719885390990433]
トランスフォーマーモデルは、自然言語処理(NLP)のために、ワードシーケンスをモデル化するために最初に開発された。
本稿では, ジェスチャー認識, ジェスチャー予測, 軌道予測の3つのタスクに対して, トランスフォーマーモデルを用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-03T20:26:48Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Stochastic Action Prediction for Imitation Learning [1.6385815610837169]
模倣学習は、観察を行動にマップするポリシーを学ぶために専門家のデモンストレーションに依存するスキルを獲得するためのデータ駆動のアプローチです。
遠隔操作車によるライン追従を含むタスクのために収集されたデモに本質性を示す。
専門家データにおける相反性の説明は,タスク完了の成功率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2020-12-26T08:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。