論文の概要: How to Tidy Up a Table: Fusing Visual and Semantic Commonsense Reasoning
for Robotic Tasks with Vague Objectives
- arxiv url: http://arxiv.org/abs/2307.11319v1
- Date: Fri, 21 Jul 2023 03:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 13:51:06.383335
- Title: How to Tidy Up a Table: Fusing Visual and Semantic Commonsense Reasoning
for Robotic Tasks with Vague Objectives
- Title(参考訳): テーブルを整理する方法:あいまいな目的を持つロボットタスクのための視覚的およびセマンティックな常識推論
- Authors: Yiqing Xu, David Hsu
- Abstract要約: 多くの現実のシナリオにおけるVagの目標は、ロボット工学に長年の課題をもたらす。
我々は,大規模言語モデルのセマンティック・タイディ・ポリシーを基礎として,軽量でイメージベースの調度スコア関数を学習する。
私たちのパイプラインは、見えないオブジェクトや複雑な3Dアレンジメントに適用できます。
- 参考スコア(独自算出の注目度): 14.957668772363975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vague objectives in many real-life scenarios pose long-standing challenges
for robotics, as defining rules, rewards, or constraints for optimization is
difficult. Tasks like tidying a messy table may appear simple for humans, but
articulating the criteria for tidiness is complex due to the ambiguity and
flexibility in commonsense reasoning. Recent advancement in Large Language
Models (LLMs) offers us an opportunity to reason over these vague objectives:
learned from extensive human data, LLMs capture meaningful common sense about
human behavior. However, as LLMs are trained solely on language input, they may
struggle with robotic tasks due to their limited capacity to account for
perception and low-level controls. In this work, we propose a simple approach
to solve the task of table tidying, an example of robotic tasks with vague
objectives. Specifically, the task of tidying a table involves not just
clustering objects by type and functionality for semantic tidiness but also
considering spatial-visual relations of objects for a visually pleasing
arrangement, termed as visual tidiness. We propose to learn a lightweight,
image-based tidiness score function to ground the semantically tidy policy of
LLMs to achieve visual tidiness. We innovatively train the tidiness score using
synthetic data gathered using random walks from a few tidy configurations. Such
trajectories naturally encode the order of tidiness, thereby eliminating the
need for laborious and expensive human demonstrations. Our empirical results
show that our pipeline can be applied to unseen objects and complex 3D
arrangements.
- Abstract(参考訳): 多くの現実のシナリオにおけるVagの目標は、ルール、報酬、最適化の制約を定義することが難しいため、ロボット工学にとって長年の課題となる。
乱雑なテーブルを整列するといったタスクは、人間にとって単純に見えるかもしれないが、常識推論の曖昧さと柔軟性のために、整列の基準を明確化することは複雑である。
大規模言語モデル(LLM)の最近の進歩は、これらの曖昧な目的を解明する機会を与えてくれる。
しかし、LLMは言語入力のみに基づいて訓練されているため、知覚と低レベル制御を考慮に入れる能力が限られているため、ロボットタスクに苦労する可能性がある。
本研究では,曖昧な目的を持ったロボットタスクの例であるテーブルタイディングの課題を解決するための簡易な手法を提案する。
具体的には、テーブルを分類するタスクは、型別や機能別にオブジェクトをクラスタリングするだけでなく、視覚的に楽しむためのオブジェクトの空間的・視覚的関係も考慮する。
我々は,LLMのセマンティックティディポリシを基盤として,視覚的ティディネスを実現するために,軽量でイメージベースのティディネススコア関数を学習することを提案する。
我々は,ランダムウォークを用いて収集した合成データを用いて,ティディネススコアを革新的にトレーニングする。
このような軌道は、自然に怠慢の順序を符号化し、努力と高価な人間のデモンストレーションの必要性を排除している。
実験の結果、パイプラインは見えないオブジェクトや複雑な3Dアレンジメントに適用できることがわかった。
関連論文リスト
- Representing visual classification as a linear combination of words [0.0]
視覚分類タスクの言語ベースの記述子を識別するために,視覚言語モデルを用いた説明可能性戦略を提案する。
画像とテキストの間に予め訓練された結合埋め込み空間を利用することで,新しい分類課題を単語の線形結合として推定する。
その結果,ドメイン特化言語訓練の欠如にもかかわらず,結果として得られた記述子は臨床知識とほぼ一致していることが判明した。
論文 参考訳(メタデータ) (2023-11-18T02:00:20Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Knolling Bot: Learning Robotic Object Arrangement from Tidy Demonstrations [11.873522421121173]
本稿では,ロボットがタイディネスの概念を理解し,再現できる自己指導型学習フレームワークを提案する。
我々は、トランスフォーマーニューラルネットワークを利用して、その後のオブジェクトの配置を予測する。
提案手法は, 汎用的なタイディネスの概念を訓練するだけでなく, カスタマイズされたタイディテーブルを生成するために, 人間の好みを取り入れることもできる。
論文 参考訳(メタデータ) (2023-10-06T20:13:07Z) - Learning Explicit Contact for Implicit Reconstruction of Hand-held
Objects from Monocular Images [59.49985837246644]
我々は,手持ちの物体を暗黙的に再構築する上で,明示的な方法で接触をモデル化する方法を示す。
まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。
第2部では,ハンドメッシュ面から近傍の3次元空間へ推定された接触状態を拡散する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:59:26Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Semantic Composition in Visually Grounded Language Models [0.0]
視覚的に接地された言語モデルは構成構造を表現するのに大きく失敗することを示す。
我々は新しい構成的視覚的質問応答ベンチマークであるWinogroundVQAを紹介する。
我々は、研究の神経科学、精神言語学、形式意味論、哲学との関連について論じる。
論文 参考訳(メタデータ) (2023-05-15T03:19:42Z) - Relate to Predict: Towards Task-Independent Knowledge Representations
for Reinforcement Learning [11.245432408899092]
強化学習は、エージェントが複雑なタスクを学習できるようにする。
知識を解釈し、タスク間で再利用することは難しい。
本稿では,対象中心の知識分離を明示する帰納的バイアスを導入する。
知識分離における明示性の程度は、学習の高速化、精度の向上、一般化の向上、理解可能性の向上と相関していることを示す。
論文 参考訳(メタデータ) (2022-12-10T13:33:56Z) - Efficient Representations of Object Geometry for Reinforcement Learning
of Interactive Grasping Policies [29.998917158604694]
本稿では,様々な幾何学的に異なる実世界の物体の対話的把握を学習する強化学習フレームワークを提案する。
学習したインタラクティブなポリシーのビデオはhttps://maltemosbach.org/io/geometry_aware_grasping_policiesで公開されている。
論文 参考訳(メタデータ) (2022-11-20T11:47:33Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - HAKE: A Knowledge Engine Foundation for Human Activity Understanding [65.24064718649046]
人間の活動理解は人工知能に広く興味を持ち、医療や行動分析といった多様な応用にまたがっている。
本稿では,この課題を2段階にまとめた新しいパラダイムを提案する。まず,原子活動プリミティブを対象とする中間空間に画素をマッピングし,解釈可能な論理規則で検出されたプリミティブをプログラムして意味論を推論する。
我々のフレームワークであるHAKE(Human Activity Knowledge Engine)は、挑戦的なベンチマークよりも優れた一般化能力と性能を示す。
論文 参考訳(メタデータ) (2022-02-14T16:38:31Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。