論文の概要: S3G-ARM: Highly Compressive Visual Self-localization from Sequential
Semantic Scene Graph Using Absolute and Relative Measurements
- arxiv url: http://arxiv.org/abs/2109.04569v1
- Date: Thu, 9 Sep 2021 21:49:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 02:06:40.909896
- Title: S3G-ARM: Highly Compressive Visual Self-localization from Sequential
Semantic Scene Graph Using Absolute and Relative Measurements
- Title(参考訳): S3G-ARM:絶対的および相対的測定を用いたシーケンスセマンティックシーングラフからの高圧縮的自己局在
- Authors: Mitsuki Yoshida, Ryogo Yamamoto, Kanji Tanaka
- Abstract要約: 我々は、シーケンシャルシーングラフ(S3G)と呼ばれる、新しい高度に圧縮されたシーン表現から、画像シーケンスに基づく自己ローカライゼーション(ISS)の問題に対処する。
本稿では,ノードとエッジが互いに補完する絶対的,相対的な特徴として機能するように,類似性保存マッピング,イメージ・ツー・ノード,画像・ツー・エッジのペアを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the problem of image sequence-based
self-localization (ISS) from a new highly compressive scene representation
called sequential semantic scene graph (S3G). Recent developments in deep graph
convolutional neural networks (GCNs) have enabled a highly compressive visual
place classifier (VPC) that can use a scene graph as the input modality.
However, in such a highly compressive application, the amount of information
lost in the image-to-graph mapping is significant and can damage the
classification performance. To address this issue, we propose a pair of
similarity-preserving mappings, image-to-nodes and image-to-edges, such that
the nodes and edges act as absolute and relative features, respectively, that
complement each other. Moreover, the proposed GCN-VPC is applied to a new task
of viewpoint planning (VP) of the query image sequence, which contributes to
further improvement in the VPC performance. Experiments using the public NCLT
dataset validated the effectiveness of the proposed method.
- Abstract(参考訳): 本稿では,シーケンシャル・セマンティクス・シーングラフ(s3g)と呼ばれる新しい高圧縮シーン表現から,画像シーケンスに基づく自己局所化(iss)の問題に対処する。
近年のディープグラフ畳み込みニューラルネットワーク(gcns)の開発により、シーングラフを入力モダリティとして使用できる高圧縮視覚位置分類器(vpc)が実現されている。
しかし、このような高度圧縮応用では、画像からグラフへのマッピングで失われる情報量は重要であり、分類性能を損なう可能性がある。
この問題に対処するために,ノードとエッジが互いに補完する絶対的かつ相対的な特徴として機能するように,類似性保存マッピング,イメージ・ツー・ノード,イメージ・ツー・エッジのペアを提案する。
さらに、提案したGCN-VPCは、クエリ画像シーケンスの視点計画(VP)の新たなタスクに適用され、VPC性能のさらなる向上に寄与する。
NCLTデータセットを用いた実験により,提案手法の有効性が検証された。
関連論文リスト
- Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - OV-HHIR: Open Vocabulary Human Interaction Recognition Using Cross-modal Integration of Large Language Models [4.831029473163422]
オープンな語彙と人間-人間の相互作用認識フレームワークを提案する。
我々は、オープンワールド設定において、目視と目視の両方の人間のインタラクションについて、オープンエンドのテキスト記述を生成する。
本手法は,ビデオ理解のための従来の固定語彙分類システムや既存のクロスモーダル言語モデルよりも優れている。
論文 参考訳(メタデータ) (2024-12-31T13:22:00Z) - Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。
本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。
本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文 参考訳(メタデータ) (2024-07-20T13:22:59Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。