Fugu-MT 論文翻訳(概要): S3G-ARM: Highly Compressive Visual Self-localization from Sequential Semantic Scene Graph Using Absolute and Relative Measurements

論文の概要: S3G-ARM: Highly Compressive Visual Self-localization from Sequential Semantic Scene Graph Using Absolute and Relative Measurements

arxiv url: http://arxiv.org/abs/2109.04569v1
Date: Thu, 9 Sep 2021 21:49:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-14 02:06:40.909896
Title: S3G-ARM: Highly Compressive Visual Self-localization from Sequential Semantic Scene Graph Using Absolute and Relative Measurements
Title（参考訳）: S3G-ARM:絶対的および相対的測定を用いたシーケンスセマンティックシーングラフからの高圧縮的自己局在
Authors: Mitsuki Yoshida, Ryogo Yamamoto, Kanji Tanaka
Abstract要約: 我々は、シーケンシャルシーングラフ(S3G)と呼ばれる、新しい高度に圧縮されたシーン表現から、画像シーケンスに基づく自己ローカライゼーション(ISS)の問題に対処する。本稿では,ノードとエッジが互いに補完する絶対的,相対的な特徴として機能するように,類似性保存マッピング,イメージ・ツー・ノード,画像・ツー・エッジのペアを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we address the problem of image sequence-based self-localization (ISS) from a new highly compressive scene representation called sequential semantic scene graph (S3G). Recent developments in deep graph convolutional neural networks (GCNs) have enabled a highly compressive visual place classifier (VPC) that can use a scene graph as the input modality. However, in such a highly compressive application, the amount of information lost in the image-to-graph mapping is significant and can damage the classification performance. To address this issue, we propose a pair of similarity-preserving mappings, image-to-nodes and image-to-edges, such that the nodes and edges act as absolute and relative features, respectively, that complement each other. Moreover, the proposed GCN-VPC is applied to a new task of viewpoint planning (VP) of the query image sequence, which contributes to further improvement in the VPC performance. Experiments using the public NCLT dataset validated the effectiveness of the proposed method.
Abstract（参考訳）: 本稿では,シーケンシャル・セマンティクス・シーングラフ(s3g)と呼ばれる新しい高圧縮シーン表現から,画像シーケンスに基づく自己局所化(iss)の問題に対処する。近年のディープグラフ畳み込みニューラルネットワーク(gcns)の開発により、シーングラフを入力モダリティとして使用できる高圧縮視覚位置分類器(vpc)が実現されている。しかし、このような高度圧縮応用では、画像からグラフへのマッピングで失われる情報量は重要であり、分類性能を損なう可能性がある。この問題に対処するために,ノードとエッジが互いに補完する絶対的かつ相対的な特徴として機能するように,類似性保存マッピング,イメージ・ツー・ノード,イメージ・ツー・エッジのペアを提案する。さらに、提案したGCN-VPCは、クエリ画像シーケンスの視点計画(VP)の新たなタスクに適用され、VPC性能のさらなる向上に寄与する。 NCLTデータセットを用いた実験により,提案手法の有効性が検証された。

関連論文リスト

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。 4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文参考訳（メタデータ） (2025-08-03T02:50:08Z)
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。 FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文参考訳（メタデータ） (2025-01-08T18:57:33Z)
OV-HHIR: Open Vocabulary Human Interaction Recognition Using Cross-modal Integration of Large Language Models [4.831029473163422]
オープンな語彙と人間-人間の相互作用認識フレームワークを提案する。我々は、オープンワールド設定において、目視と目視の両方の人間のインタラクションについて、オープンエンドのテキスト記述を生成する。本手法は,ビデオ理解のための従来の固定語彙分類システムや既存のクロスモーダル言語モデルよりも優れている。
論文参考訳（メタデータ） (2024-12-31T13:22:00Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文参考訳（メタデータ） (2024-07-20T13:22:59Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文参考訳（メタデータ） (2022-10-03T12:21:45Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Enhancing Multi-Robot Perception via Learned Data Association [37.866254392010454]
本稿では,マルチロボット協調認識問題,特に分散セマンティックセグメンテーションにおけるマルチビューインフィル問題に対処する。本稿では,ロボット群において各エージェントにデプロイ可能なニューラルネットワークであるMulti-Agent Infilling Networkを提案する。具体的には、各ロボットが視覚情報を局所的に符号化・復号し、ニューラルメカニズムにより、不確実性を認識し、文脈に基づく中間特徴の交換を可能にする。
論文参考訳（メタデータ） (2021-07-01T22:45:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。