論文の概要: Multi-view Disentanglement for Reinforcement Learning with Multiple Cameras
- arxiv url: http://arxiv.org/abs/2404.14064v2
- Date: Fri, 21 Jun 2024 14:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 19:26:42.878412
- Title: Multi-view Disentanglement for Reinforcement Learning with Multiple Cameras
- Title(参考訳): 複数のカメラを用いた強化学習のための多視点ディスタングル
- Authors: Mhairi Dunion, Stefano V. Albrecht,
- Abstract要約: 自己中心型カメラを含む複数のカメラを同時に訓練することで、異なるカメラ視点からの情報を活用して強化学習(RL)の性能を向上させることができる。
本稿では,複数のカメラを用いたマルチビューディスタングル(MVD)を提案し,トレーニングセットから任意のカメラに一般化するカメラ数の削減に頑健なポリシーを学習する。
我々のアプローチは、複数のカメラから不整合表現を学習するRLのための自己教師付き補助タスクであり、全カメラにまたがって一台のカメラへの一般化を可能にする共有表現と、カメラであるプライベート表現とを備えている。
- 参考スコア(独自算出の注目度): 10.31844915748746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of image-based Reinforcement Learning (RL) agents can vary depending on the position of the camera used to capture the images. Training on multiple cameras simultaneously, including a first-person egocentric camera, can leverage information from different camera perspectives to improve the performance of RL. However, hardware constraints may limit the availability of multiple cameras in real-world deployment. Additionally, cameras may become damaged in the real-world preventing access to all cameras that were used during training. To overcome these hardware constraints, we propose Multi-View Disentanglement (MVD), which uses multiple cameras to learn a policy that is robust to a reduction in the number of cameras to generalise to any single camera from the training set. Our approach is a self-supervised auxiliary task for RL that learns a disentangled representation from multiple cameras, with a shared representation that is aligned across all cameras to allow generalisation to a single camera, and a private representation that is camera-specific. We show experimentally that an RL agent trained on a single third-person camera is unable to learn an optimal policy in many control tasks; but, our approach, benefiting from multiple cameras during training, is able to solve the task using only the same single third-person camera.
- Abstract(参考訳): 画像ベース強化学習(RL)エージェントの性能は、撮像に使用されるカメラの位置によって異なる。
一人称自撮りカメラを含む複数のカメラを同時に訓練することで、異なるカメラの視点からの情報を活用してRLの性能を向上させることができる。
しかし、ハードウェアの制約により、現実のデプロイメントにおける複数のカメラの可用性が制限される可能性がある。
さらに、訓練中に使用した全てのカメラへのアクセスを防止するために、現実世界でカメラが損傷する可能性がある。
ハードウェアの制約を克服するため,マルチビュー・ディスタングルメント(MVD, Multi-View Disentanglement)を提案する。
提案手法は、複数のカメラから不整合表現を学習するRLの自己教師型補助タスクであり、全カメラにまたがって一台のカメラへの一般化を可能にする共有表現と、カメラ固有のプライベート表現とを有する。
実験では,1台の第三者カメラで訓練したRLエージェントが,多数の制御タスクにおいて最適なポリシーを学習できないことを示すが,トレーニング中の複数のカメラの恩恵を受けながら,同一の第三者カメラのみを用いてタスクを解くことができる。
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Improved Single Camera BEV Perception Using Multi-Camera Training [4.003066044908734]
大規模生産において、コスト効率は最適化の目標であり、カメラの使用を減らすことがより重要になる。
これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。
本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。
論文 参考訳(メタデータ) (2024-09-04T13:06:40Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。
既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。
我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z) - Human Mesh Recovery from Arbitrary Multi-view Images [57.969696744428475]
任意の多視点画像からU-HMR(Unified Human Mesh Recovery)を分離・征服する枠組みを提案する。
特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビューフュージョン(AVF)の2つの主要コンポーネントから構成されている。
我々は、Human3.6M、MPI-INF-3DHP、TotalCaptureの3つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-03-19T04:47:56Z) - Learning Active Camera for Multi-Object Navigation [94.89618442412247]
ロボットアプリケーションでは、ロボットが複数のオブジェクトに自律的にナビゲートすることが不可欠だが、難しい。
既存のナビゲーション手法は主に固定カメラに焦点を当てており、アクティブカメラでナビゲートする試みはほとんど行われていない。
本稿では,アクティブカメラを用いて,複数の物体へのナビゲーションをより効率的に行うことを検討する。
論文 参考訳(メタデータ) (2022-10-14T04:17:30Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - Smart Time-Multiplexing of Quads Solves the Multicamera Interference
Problem [0.0]
複数のToFカメラを同期する効率的な方法を提案する。
本手法は時間分割多重化に基づいているが,従来の時間多重化とは異なり,有効カメラフレームレートは低下しない。
論文 参考訳(メタデータ) (2020-11-05T21:29:21Z) - Rethinking the Distribution Gap of Person Re-identification with
Camera-based Batch Normalization [90.9485099181197]
本稿では,従来のReID手法の動作機構を再考する。
我々は、すべてのカメラの画像データを同じ部分空間に落とすように強制する。
幅広いReIDタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-01-23T17:22:34Z) - Pose-Assisted Multi-Camera Collaboration for Active Object Tracking [42.57706021569103]
アクティブオブジェクト追跡(AOT)は、モバイルロボット、インテリジェント監視など、多くのビジョンベースのアプリケーションに不可欠である。
本稿では,単一カメラのAOTをマルチカメラ環境に拡張し,カメラが目標を協調的に追跡する手法を提案する。
本稿では,カメラが物体追跡のためのカメラのポーズを共有することによって,他者との協調を可能にする,Pose-Assisted Multi-Camera Collaboration Systemを提案する。
論文 参考訳(メタデータ) (2020-01-15T07:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。