論文の概要: Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2505.04619v2
- Date: Fri, 29 Aug 2025 14:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 15:42:25.85819
- Title: Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための視覚強化学習におけるマージングとディエンタングの視点
- Authors: Abdulaziz Almuzairee, Rohan Patil, Dwait Bhatt, Henrik I. Christensen,
- Abstract要約: マルチビューポリシは、フェールカメラに敏感であり、デプロイには負担がかかる可能性がある。
本稿では,ビューを効率よくマージし,サンプル効率を向上させるマージ・アンド・ディスタングルメント(MAD)アルゴリズムを提案する。
これにより、堅牢なポリシが生成され、軽量なデプロイメントが可能になる。
- 参考スコア(独自算出の注目度): 2.824359484221825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision is well-known for its use in manipulation, especially using visual servoing. Due to the 3D nature of the world, using multiple camera views and merging them creates better representations for Q-learning and in turn, trains more sample efficient policies. Nevertheless, these multi-view policies are sensitive to failing cameras and can be burdensome to deploy. To mitigate these issues, we introduce a Merge And Disentanglement (MAD) algorithm that efficiently merges views to increase sample efficiency while simultaneously disentangling views by augmenting multi-view feature inputs with single-view features. This produces robust policies and allows lightweight deployment. We demonstrate the efficiency and robustness of our approach using Meta-World and ManiSkill3. For project website and code, see https://aalmuzairee.github.io/mad
- Abstract(参考訳): 視覚は操作、特に視覚サーボの使用で有名である。
世界の3D的な性質のため、複数のカメラビューを使用してそれらをマージすることで、Q-ラーニングのためのより良い表現が可能になり、より効率的なポリシをトレーニングする。
にもかかわらず、これらのマルチビューポリシーはカメラの故障に敏感であり、展開には負担がかかる可能性がある。
これらの問題を緩和するために,ビューを効率よくマージしてサンプル効率を向上させると同時に,複数ビュー特徴量と単一ビュー特徴量とを同時に拡張するマージ・アンド・ディアンタングメント(MAD)アルゴリズムを導入する。
これにより、堅牢なポリシが生成され、軽量なデプロイメントが可能になる。
Meta-World と ManiSkill3 を用いたアプローチの効率性とロバスト性を実証した。
プロジェクトのWebサイトとコードについては、https://aalmuzairee.github.io/madを参照してください。
関連論文リスト
- VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。
WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。
我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-05T02:32:58Z) - BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation [23.28384886356853]
マルチビュー操作タスクのためのBFA融合戦略を提案する。
ポリシーネットワークの視覚的バックボーンに基づいて、各ビューの重要度を予測する軽量ネットワークを設計する。
予測された重要度に基づいて、再重み付けされたマルチビュー機能はその後融合され、エンドツーエンドのポリシーネットワークに入力される。
論文 参考訳(メタデータ) (2025-02-16T15:26:21Z) - PruneVid: Visual Token Pruning for Efficient Video Large Language Models [24.889834611542955]
マルチモーダルビデオ理解の効率化を目的とした視覚的トークンプルーニング手法PruneVidを紹介する。
LLMは、視覚的モダリティを解釈する能力の拡張により、ビデオタスクにおいて有望なパフォーマンスを示してきた。
提案手法を複数のビデオベンチマークで検証し,トークンの80%以上をPruneVidが実行可能であることを示す。
論文 参考訳(メタデータ) (2024-12-20T18:01:58Z) - FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances [59.34619548026885]
本稿では,対象物やシナリオを所定のビューから分析し,処理に最適なビューを選択するビュー選択手法を提案する。
提案手法は,MVSelectという強化学習に基づくカメラ選択モジュールを備えており,ビューの選択だけでなく,タスクネットワークとの協調トレーニングも容易である。
論文 参考訳(メタデータ) (2023-03-10T18:59:10Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。