論文の概要: Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2505.04619v1
- Date: Wed, 07 May 2025 17:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.183095
- Title: Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための視覚強化学習におけるマージングとディエンタングの視点
- Authors: Abdulaziz Almuzairee, Rohan Patil, Dwait Bhatt, Henrik I. Christensen,
- Abstract要約: 複数のビューをマージし、Q-ラーニングを使用することで、より効率的な表現とサンプル効率の最適化を実現できる。
本稿では,ビューを効率よくマージし,サンプル効率を向上させるマージ・アンド・ディスタングルメント(MAD)アルゴリズムを提案する。
Meta-World と ManiSkill3 を用いたアプローチの効率性とロバスト性を実証した。
- 参考スコア(独自算出の注目度): 5.824337885619173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision is well-known for its use in manipulation, especially using visual servoing. To make it robust, multiple cameras are needed to expand the field of view. That is computationally challenging. Merging multiple views and using Q-learning allows the design of more effective representations and optimization of sample efficiency. Such a solution might be expensive to deploy. To mitigate this, we introduce a Merge And Disentanglement (MAD) algorithm that efficiently merges views to increase sample efficiency while augmenting with single-view features to allow lightweight deployment and ensure robust policies. We demonstrate the efficiency and robustness of our approach using Meta-World and ManiSkill3. For project website and code, see https://aalmuzairee.github.io/mad
- Abstract(参考訳): 視覚は操作、特に視覚サーボの使用で有名である。
堅牢化のためには、視野を広げるために複数のカメラが必要である。
それは計算的に難しい。
複数のビューをマージし、Q-ラーニングを使用することで、より効率的な表現とサンプル効率の最適化を実現できる。
このようなソリューションはデプロイに費用がかかるかも知れません。
これを軽減するために,ビューを効率よくマージしてサンプル効率を向上させるマージアンドディスタングルメント(Merge And Disentanglement,MAD)アルゴリズムを導入した。
Meta-World と ManiSkill3 を用いたアプローチの効率性とロバスト性を実証した。
プロジェクトのWebサイトとコードについては、https://aalmuzairee.github.io/madを参照してください。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。
WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。
我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-05T02:32:58Z) - BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation [23.28384886356853]
マルチビュー操作タスクのためのBFA融合戦略を提案する。
ポリシーネットワークの視覚的バックボーンに基づいて、各ビューの重要度を予測する軽量ネットワークを設計する。
予測された重要度に基づいて、再重み付けされたマルチビュー機能はその後融合され、エンドツーエンドのポリシーネットワークに入力される。
論文 参考訳(メタデータ) (2025-02-16T15:26:21Z) - PruneVid: Visual Token Pruning for Efficient Video Large Language Models [24.889834611542955]
マルチモーダルビデオ理解の効率化を目的とした視覚的トークンプルーニング手法PruneVidを紹介する。
LLMは、視覚的モダリティを解釈する能力の拡張により、ビデオタスクにおいて有望なパフォーマンスを示してきた。
提案手法を複数のビデオベンチマークで検証し,トークンの80%以上をPruneVidが実行可能であることを示す。
論文 参考訳(メタデータ) (2024-12-20T18:01:58Z) - FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances [59.34619548026885]
本稿では,対象物やシナリオを所定のビューから分析し,処理に最適なビューを選択するビュー選択手法を提案する。
提案手法は,MVSelectという強化学習に基づくカメラ選択モジュールを備えており,ビューの選択だけでなく,タスクネットワークとの協調トレーニングも容易である。
論文 参考訳(メタデータ) (2023-03-10T18:59:10Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。