論文の概要: Object-centric Inference for Language Conditioned Placement: A
Foundation Model based Approach
- arxiv url: http://arxiv.org/abs/2304.02893v1
- Date: Thu, 6 Apr 2023 06:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:06:50.210093
- Title: Object-centric Inference for Language Conditioned Placement: A
Foundation Model based Approach
- Title(参考訳): 言語条件付配置のためのオブジェクト指向推論:基礎モデルに基づくアプローチ
- Authors: Zhixuan Xu, Kechun Xu, Yue Wang, Rong Xiong
- Abstract要約: 本稿では,ロボットが言語命令の空間的制約をすべて満たした配置を生成するための,言語条件付きオブジェクト配置の課題に焦点を当てる。
提案するオブジェクト中心フレームワークは,参照対象と配置空間の関係を基底として基礎モデルを利用する。
- 参考スコア(独自算出の注目度): 12.016988248578027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the task of language-conditioned object placement, in which a
robot should generate placements that satisfy all the spatial relational
constraints in language instructions. Previous works based on rule-based
language parsing or scene-centric visual representation have restrictions on
the form of instructions and reference objects or require large amounts of
training data. We propose an object-centric framework that leverages foundation
models to ground the reference objects and spatial relations for placement,
which is more sample efficient and generalizable. Experiments indicate that our
model can achieve a 97.75% success rate of placement with only ~0.26M trainable
parameters. Besides, our method generalizes better to both unseen objects and
instructions. Moreover, with only 25% training data, we still outperform the
top competing approach.
- Abstract(参考訳): 我々は,ロボットが言語指示における空間的関係制約をすべて満たした配置を生成するための,言語条件付きオブジェクト配置のタスクに焦点をあてる。
ルールベースの言語解析やシーン中心の視覚的表現に基づく以前の作品は、命令や参照オブジェクトの形式に制限があり、大量のトレーニングデータを必要とする。
そこで本稿では,基礎モデルを利用して位置決めのための参照オブジェクトと空間関係を接地するオブジェクト指向フレームワークを提案する。
実験によれば、トレーニング可能なパラメータは約0.26mで97.75%の成功率を達成した。
さらに,本手法は未確認オブジェクトと命令の両方に最適化する。
さらに、25%のトレーニングデータしかありませんが、それでもトップの競合アプローチを上回っています。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Adapting a Foundation Model for Space-based Tasks [16.81793096235458]
宇宙ロボティクスの将来において、宇宙ベースのアプリケーションに適応した基礎モデルの使用を動機付ける3つのコア課題が見られます。
本研究では,1)既存の視覚言語モデルは空間ベースアプリケーションでは不十分な視覚推論モデルであり,2)地球外データ上での視覚言語モデルの微調整は応答の質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-08-12T05:07:24Z) - Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment [39.94156255629528]
ゼロショット・クロスランガルアライメントのための簡単なアプローチを評価する。
言語間の整列モデルは、非整列モデルよりも人間の方が好まれる。
異なる言語報酬モデルでは、同言語報酬モデルよりも優れた整列モデルが得られることがある。
論文 参考訳(メタデータ) (2024-04-18T16:52:36Z) - ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition [8.654140442734354]
不慣れな物体のタスク指向の把握は、動的家庭環境におけるロボットにとって必要なスキルである。
本稿では,対象物体の幾何学的分解を簡単な凸形状に生かしたゼロショットタスク指向の把握手法を提案する。
このアプローチでは、ゼロショットタスク指向の把握を容易にするために、最小限の必須情報(オブジェクト名と意図したタスク)を使用します。
論文 参考訳(メタデータ) (2024-03-26T19:26:53Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Energy-based Models are Zero-Shot Planners for Compositional Scene
Rearrangement [19.494104738436892]
このフレームワークは,シミュレーションや実世界において,ゼロショットで合成命令を実行できることを示す。
言語から反応する反応ポリシーや大規模言語モデルよりも、特に複数の概念の合成を含む長い命令において、大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-04-27T17:55:13Z) - Learning 6-DoF Object Poses to Grasp Category-level Objects by Language
Instructions [74.63313641583602]
本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。
我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。
言語誘導型6-DoFカテゴリーレベルの物体位置定位モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T04:25:14Z) - Learning Models as Functionals of Signed-Distance Fields for
Manipulation Planning [51.74463056899926]
本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する,最適化に基づく操作計画フレームワークを提案する。
オブジェクトを符号付き距離場として表現することは、ポイントクラウドや占有率の表現よりも高い精度で、様々なモデルの学習と表現を可能にする。
論文 参考訳(メタデータ) (2021-10-02T12:36:58Z) - Target-dependent UNITER: A Transformer-Based Multimodal Language
Comprehension Model for Domestic Service Robots [0.0]
画像内の関連領域に着目し,対象オブジェクトと他のオブジェクトの関係を直接学習するターゲット依存型UNITERを提案する。
提案手法は,汎用データセット上で事前学習が可能なUNITERベースのトランスフォーマーの拡張である。
本モデルでは,2つの標準データセットに対して検証を行い,分類精度の点で,ターゲット依存型UNITERがベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2021-07-02T03:11:02Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。