論文の概要: Differentiable Parsing and Visual Grounding of Verbal Instructions for
Object Placement
- arxiv url: http://arxiv.org/abs/2210.00215v1
- Date: Sat, 1 Oct 2022 07:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:52:03.706784
- Title: Differentiable Parsing and Visual Grounding of Verbal Instructions for
Object Placement
- Title(参考訳): オブジェクト配置のための言語指示の微分解析と視覚的接地
- Authors: Zirui Zhao, Wee Sun Lee, David Hsu
- Abstract要約: 言語条件のオブジェクト配置のためのPARsing and visual GrOuNdingフレームワークであるParaGonを紹介する。
言語命令をオブジェクト間の関係に解析し、それらのオブジェクトを視覚的なシーンでグラウンド化する。
ParaGonは、これらの手順をすべてニューラルネットワークにエンコードして、エンドツーエンドのトレーニングを行う。
- 参考スコア(独自算出の注目度): 26.74189486483276
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Grounding spatial relations in natural language for object placing could have
ambiguity and compositionality issues. To address the issues, we introduce
ParaGon, a PARsing And visual GrOuNding framework for language-conditioned
object placement. It parses language instructions into relations between
objects and grounds those objects in visual scenes. A particle-based GNN then
conducts relational reasoning between grounded objects for placement
generation. ParaGon encodes all of those procedures into neural networks for
end-to-end training, which avoids annotating parsing and object reference
grounding labels. Our approach inherently integrates parsing-based methods into
a probabilistic, data-driven framework. It is data-efficient and generalizable
for learning compositional instructions, robust to noisy language inputs, and
adapts to the uncertainty of ambiguous instructions.
- Abstract(参考訳): オブジェクト配置のための自然言語における接地空間関係はあいまいさと構成性の問題を引き起こす可能性がある。
この問題に対処するために、言語条件のオブジェクト配置のためのPARsing and visual GrOuNdingフレームワークであるParaGonを紹介する。
言語命令をオブジェクト間の関係に解析し、それらのオブジェクトを視覚的なシーンで根拠付けする。
粒子ベースGNNは、配置生成のための接地対象間の関係推論を行う。
ParaGonは、これらの手順をすべてニューラルネットワークにエンコードしてエンドツーエンドのトレーニングを行う。
当社のアプローチは本質的に解析ベースのメソッドを確率的データ駆動フレームワークに統合します。
データ効率が高く、構成命令の学習に汎用的であり、ノイズの多い言語入力に頑健であり、曖昧な命令の不確実性に適応する。
関連論文リスト
- Energy-based Models are Zero-Shot Planners for Compositional Scene
Rearrangement [19.494104738436892]
このフレームワークは,シミュレーションや実世界において,ゼロショットで合成命令を実行できることを示す。
言語から反応する反応ポリシーや大規模言語モデルよりも、特に複数の概念の合成を含む長い命令において、大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-04-27T17:55:13Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。
我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。
自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文 参考訳(メタデータ) (2022-05-11T17:49:25Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z) - Composing Pick-and-Place Tasks By Grounding Language [41.075844857146805]
制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-16T11:29:09Z) - Few-shot Object Grounding and Mapping for Natural Language Robot
Instruction Following [15.896892723068932]
本稿では,ロボットのポリシーを学習して自然言語の指示に従うという課題について考察する。
本稿では,拡張現実データから学習した数発の言語条件オブジェクトグラウンドティング手法を提案する。
オブジェクトの位置とその指示された使用を符号化した学習地図表現を提示し、この数発のグラウンドアウトプットから構築する。
論文 参考訳(メタデータ) (2020-11-14T20:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。