論文の概要: Multi-View Dreaming: Multi-View World Model with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2203.11024v1
- Date: Tue, 15 Mar 2022 02:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 05:09:17.824428
- Title: Multi-View Dreaming: Multi-View World Model with Contrastive Learning
- Title(参考訳): マルチビュードリーム:コントラスト学習を用いたマルチビューワールドモデル
- Authors: Akira Kinose, Masashi Okada, Ryo Okumura, Tadahiro Taniguchi
- Abstract要約: マルチビュー・ドリーミング(Multi-View Dreaming)は、マルチビュー観測から認識と制御を統合化するための新しい強化学習エージェントである。
本稿では、コントラスト学習を用いて、異なる視点間で共有潜在空間を学習する。
また,多視点ドリーミングの変種であるMulti-View DreamingV2を提案する。
- 参考スコア(独自算出の注目度): 11.259786293913606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose Multi-View Dreaming, a novel reinforcement learning
agent for integrated recognition and control from multi-view observations by
extending Dreaming. Most current reinforcement learning method assumes a
single-view observation space, and this imposes limitations on the observed
data, such as lack of spatial information and occlusions. This makes obtaining
ideal observational information from the environment difficult and is a
bottleneck for real-world robotics applications. In this paper, we use
contrastive learning to train a shared latent space between different
viewpoints, and show how the Products of Experts approach can be used to
integrate and control the probability distributions of latent states for
multiple viewpoints. We also propose Multi-View DreamingV2, a variant of
Multi-View Dreaming that uses a categorical distribution to model the latent
state instead of the Gaussian distribution. Experiments show that the proposed
method outperforms simple extensions of existing methods in a realistic robot
control task.
- Abstract(参考訳): 本稿では,Dreamingの拡張による多視点観測から認識と制御を統合化するための新しい強化学習エージェントであるMulti-View Dreamingを提案する。
現在の強化学習法のほとんどは単視観察空間を想定しており、空間情報や咬合の欠如などの観測データに制限を課している。
これにより、環境から理想的な観測情報を得るのが難しく、現実世界のロボット工学応用のボトルネックとなる。
本稿では,異なる視点間で共有潜在空間を訓練するためにコントラスト学習を用い,複数の視点における潜在状態の確率分布の統合と制御に専門家の手法がいかに役立つかを示す。
また,ガウス分布ではなく潜在状態のモデル化にカテゴリ分布を用いたマルチビュードリームの変種であるマルチビューdreamingv2を提案する。
実ロボット制御タスクにおいて,提案手法が既存手法の簡単な拡張よりも優れていることを示す実験を行った。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Towards Generalized Multi-stage Clustering: Multi-view Self-distillation [10.368796552760571]
既存のマルチステージクラスタリング手法は、独立して複数のビューから健全な特徴を学習し、クラスタリングタスクを実行する。
本稿では,多視点自己蒸留(DistilMVC)を導入し,ラベル分布の暗黒知識を抽出する多段階深層MVCフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-29T03:35:34Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Latent Heterogeneous Graph Network for Incomplete Multi-View Learning [57.49776938934186]
非完全多視点学習のための新しい遅延不均質グラフネットワーク(LHGN)を提案する。
統一された潜在表現を学習することにより、異なる視点間の一貫性と相補性の間のトレードオフが暗黙的に実現される。
学習とテストフェーズの不整合を回避するため,分類タスクのグラフ学習に基づくトランスダクティブ学習手法を適用した。
論文 参考訳(メタデータ) (2022-08-29T15:14:21Z) - MORI-RAN: Multi-view Robust Representation Learning via Hybrid
Contrastive Fusion [4.36488705757229]
多視点表現学習は、クラスタリングや分類といった多くの多視点タスクに不可欠である。
ラベルのないデータから堅牢なビュー-共通表現を抽出するハイブリッドコントラスト融合アルゴリズムを提案する。
実験の結果,提案手法は実世界の4つのデータセットにおいて,12の競合的マルチビュー手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-26T09:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。