Fugu-MT 論文翻訳(概要): Leveraging Large (Visual) Language Models for Robot 3D Scene Understanding

論文の概要: Leveraging Large (Visual) Language Models for Robot 3D Scene Understanding

arxiv url: http://arxiv.org/abs/2209.05629v2
Date: Wed, 8 Nov 2023 08:37:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 20:41:05.355212
Title: Leveraging Large (Visual) Language Models for Robot 3D Scene Understanding
Title（参考訳）: ロボット3Dシーン理解のための大規模(ビジュアル)言語モデルの活用
Authors: William Chen, Siyi Hu, Rajat Talak, Luca Carlone
Abstract要約: 本研究では,シーン理解に共通した感覚を与えるために,事前学習言語モデルを用いることを検討する。両カテゴリの最良のアプローチは、$sim 70%$の部屋分類精度が得られる。
参考スコア（独自算出の注目度）: 25.860680905256174
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Abstract semantic 3D scene understanding is a problem of critical importance in robotics. As robots still lack the common-sense knowledge about household objects and locations of an average human, we investigate the use of pre-trained language models to impart common sense for scene understanding. We introduce and compare a wide range of scene classification paradigms that leverage language only (zero-shot, embedding-based, and structured-language) or vision and language (zero-shot and fine-tuned). We find that the best approaches in both categories yield $\sim 70\%$ room classification accuracy, exceeding the performance of pure-vision and graph classifiers. We also find such methods demonstrate notable generalization and transfer capabilities stemming from their use of language.
Abstract（参考訳）: 抽象的セマンティック3Dシーン理解はロボット工学において重要な問題である。ロボットは、平均的な人間の家や場所に関する常識的な知識をいまだに欠いているため、シーン理解のための常識を与えるために、事前学習言語モデルを用いて検討する。言語のみ(ゼロショット、埋め込みベース、構造化言語)や視覚と言語(ゼロショット、微調整)を利用する広い範囲のシーン分類パラダイムを紹介し比較する。両カテゴリの最良のアプローチは、純視覚およびグラフ分類器の性能を超越した、$\sim 70\%$室の分類精度が得られる。また,そのような手法は,言語の使用による顕著な一般化と伝達能力を示す。

関連論文リスト

DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding [44.81427860963744]
この分野での基本課題はエゴ中心の3次元視覚グラウンド(英語版)であり、エージェントは言葉による記述に基づいて現実世界の3次元空間内の対象物を特定する。視覚的意味論とテキスト的意味論を両立させる新しいアプローチであるDenseGroundingを提案する。視覚的特徴として,細粒度のグローバルなシーンの特徴を捉えることで,密接なセマンティックなセマンティックなセマンティック・エンハンサーを導入する。テキスト記述のための言語セマンティックエンハンサー(Language Semantic Enhancer)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:49:06Z)
Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文参考訳（メタデータ） (2023-02-24T17:29:31Z)
Paparazzi: A Deep Dive into the Capabilities of Language and Vision Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文参考訳（メタデータ） (2023-02-13T15:18:27Z)
Extracting Zero-shot Common Sense from Large Language Models for Robot 3D Scene Understanding [25.270772036342688]
本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
論文参考訳（メタデータ） (2022-06-09T16:05:35Z)
Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文参考訳（メタデータ） (2022-02-03T18:55:52Z)
Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文参考訳（メタデータ） (2021-07-26T23:35:58Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。