Fugu-MT 論文翻訳(概要): Open-World Distributed Robot Self-Localization with Transferable Visual Vocabulary and Both Absolute and Relative Features

論文の概要: Open-World Distributed Robot Self-Localization with Transferable Visual Vocabulary and Both Absolute and Relative Features

arxiv url: http://arxiv.org/abs/2109.04569v3
Date: Wed, 11 Sep 2024 05:25:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 22:35:44.030849
Title: Open-World Distributed Robot Self-Localization with Transferable Visual Vocabulary and Both Absolute and Relative Features
Title（参考訳）: 移動可能な視覚語彙と絶対的・相対的特徴を持つオープンワールド分散ロボットの自己ローカライゼーション
Authors: Mitsuki Yoshida, Ryogo Yamamoto, Daiki Iwata, Kanji Tanaka,
Abstract要約: 本研究では,オープンワールド分散ロボットシステムのための新たな自己ローカライズフレームワークを提案する。教師なしの視覚語彙モデルを採用し、マルチモーダルで軽量で移動可能な視覚特徴にマッピングする。すべての機能は、軽量グラフニューラルネットワークとシーングラフを使用して学習され、認識される。
参考スコア（独自算出の注目度）: 1.3499500088995464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual robot self-localization is a fundamental problem in visual robot navigation and has been studied across various problem settings, including monocular and sequential localization. However, many existing studies focus primarily on single-robot scenarios, with limited exploration into general settings involving diverse robots connected through wireless networks with constrained communication capacities, such as open-world distributed robot systems. In particular, issues related to the transfer and sharing of key knowledge, such as visual descriptions and visual vocabulary, between robots have been largely neglected. This work introduces a new self-localization framework designed for open-world distributed robot systems that maintains state-of-the-art performance while offering two key advantages: (1) it employs an unsupervised visual vocabulary model that maps to multimodal, lightweight, and transferable visual features, and (2) the visual vocabulary itself is a lightweight and communication-friendly model. Although the primary focus is on encoding monocular view images, the framework can be easily extended to sequential localization applications. By utilizing complementary similarity-preserving features -- both absolute and relative -- the framework meets the requirements for being unsupervised, multimodal, lightweight, and transferable. All features are learned and recognized using a lightweight graph neural network and scene graph. The effectiveness of the proposed method is validated in both passive and active self-localization scenarios.
Abstract（参考訳）: 視覚ロボットの自己ローカライゼーションは、視覚ロボットナビゲーションの基本的な問題であり、モノクロやシーケンシャルなローカライゼーションを含む様々な問題設定で研究されている。しかし、既存の多くの研究は、主に単一ロボットのシナリオに焦点を当てており、オープンワールド分散ロボットシステムのような制約のある通信能力を持つ無線ネットワークを介して接続される多様なロボットを含む一般的な設定について限定的な調査を行っている。特に、ロボット間の視覚記述や視覚語彙などの重要な知識の伝達と共有に関する問題は、ほとんど無視されてきた。本研究は,1)マルチモーダル,軽量,移動可能な視覚特徴にマップする教師なし視覚語彙モデル,(2)視覚語彙自体が軽量でコミュニケーションに優しいモデルである,という2つの長所を提供する,オープンワールド分散ロボットシステムを対象とした,新たな自己ローカライゼーションフレームワークを提案する。主な焦点はモノクロビューイメージの符号化であるが、このフレームワークはシーケンシャルなローカライゼーションアプリケーションに容易に拡張できる。絶対的および相対的両方の相補的な類似性保存機能を活用することで、フレームワークは教師なし、マルチモーダル、軽量、転送可能な要件を満たす。すべての機能は、軽量グラフニューラルネットワークとシーングラフを使用して学習され、認識される。提案手法の有効性は,受動的かつ能動的な自己ローカライゼーションシナリオにおいて検証される。

関連論文リスト

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。 4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文参考訳（メタデータ） (2025-08-03T02:50:08Z)
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。 FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文参考訳（メタデータ） (2025-01-08T18:57:33Z)
OV-HHIR: Open Vocabulary Human Interaction Recognition Using Cross-modal Integration of Large Language Models [4.831029473163422]
オープンな語彙と人間-人間の相互作用認識フレームワークを提案する。我々は、オープンワールド設定において、目視と目視の両方の人間のインタラクションについて、オープンエンドのテキスト記述を生成する。本手法は,ビデオ理解のための従来の固定語彙分類システムや既存のクロスモーダル言語モデルよりも優れている。
論文参考訳（メタデータ） (2024-12-31T13:22:00Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文参考訳（メタデータ） (2024-07-20T13:22:59Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文参考訳（メタデータ） (2022-10-03T12:21:45Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Enhancing Multi-Robot Perception via Learned Data Association [37.866254392010454]
本稿では,マルチロボット協調認識問題,特に分散セマンティックセグメンテーションにおけるマルチビューインフィル問題に対処する。本稿では,ロボット群において各エージェントにデプロイ可能なニューラルネットワークであるMulti-Agent Infilling Networkを提案する。具体的には、各ロボットが視覚情報を局所的に符号化・復号し、ニューラルメカニズムにより、不確実性を認識し、文脈に基づく中間特徴の交換を可能にする。
論文参考訳（メタデータ） (2021-07-01T22:45:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。