論文の概要: MResT: Multi-Resolution Sensing for Real-Time Control with
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2401.14502v1
- Date: Thu, 25 Jan 2024 20:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:37:44.046310
- Title: MResT: Multi-Resolution Sensing for Real-Time Control with
Vision-Language Models
- Title(参考訳): MResT:視覚言語モデルを用いたリアルタイム制御のためのマルチリゾリューションセンシング
- Authors: Saumya Saxena, Mohit Sharma, Oliver Kroemer
- Abstract要約: 言語条件付きマルチタスクポリシーを学習するためのフレームワークMResT(Multi-Resolution Transformer)を提案する。
市販の事前学習型視覚言語モデルを利用して、低周波グローバルな機能で動作する。
我々は,近年のマルチタスクベースラインに比べて,アプローチが大幅に改善(平均2倍)していることを示す。
- 参考スコア(独自算出の注目度): 23.12338914934535
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Leveraging sensing modalities across diverse spatial and temporal resolutions
can improve performance of robotic manipulation tasks. Multi-spatial resolution
sensing provides hierarchical information captured at different spatial scales
and enables both coarse and precise motions. Simultaneously multi-temporal
resolution sensing enables the agent to exhibit high reactivity and real-time
control. In this work, we propose a framework, MResT (Multi-Resolution
Transformer), for learning generalizable language-conditioned multi-task
policies that utilize sensing at different spatial and temporal resolutions
using networks of varying capacities to effectively perform real time control
of precise and reactive tasks. We leverage off-the-shelf pretrained
vision-language models to operate on low-frequency global features along with
small non-pretrained models to adapt to high frequency local feedback. Through
extensive experiments in 3 domains (coarse, precise and dynamic manipulation
tasks), we show that our approach significantly improves (2X on average) over
recent multi-task baselines. Further, our approach generalizes well to visual
and geometric variations in target objects and to varying interaction forces.
- Abstract(参考訳): 多様な空間的および時間的解像度にわたるセンシングモダリティを活用することで、ロボット操作タスクのパフォーマンスを向上させることができる。
多空間解像度センシングは、異なる空間スケールでキャプチャされた階層的情報を提供し、粗い動きと正確な動きの両方を可能にする。
同時に、マルチタイムレゾリューションセンシングにより、エージェントは高い反応性とリアルタイム制御を示すことができる。
本研究では,様々な容量のネットワークを用いて,様々な空間的・時間的解像度でのセンシングを活用し,正確なタスクのリアルタイム制御を効果的に行う汎用言語条件のマルチタスクポリシーを学習するためのフレームワークMResT(Multi-Resolution Transformer)を提案する。
市販の視覚言語モデルを用いて、低周波グローバル機能と、低周波局所フィードバックに適応する小型の非予習モデルを操作する。
3つの領域(粗度,高精度,動的操作タスク)の広範な実験により,近年のマルチタスクベースラインに比べて,我々のアプローチは有意に改善されている(平均2倍)。
さらに,対象物体の視覚的および幾何学的変動や,相互作用力の変化によく一般化する。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Multi-task Learning for Real-time Autonomous Driving Leveraging
Task-adaptive Attention Generator [15.94714567272497]
我々は,モノクロ3次元物体検出,セマンティックセグメンテーション,深度推定という3つの重要な自律運転タスクに適応する新しいリアルタイムマルチタスクネットワークを提案する。
マルチタスク学習の課題であるネガティブトランスファーの課題に対処するために,タスク適応型アテンションジェネレータを導入する。
私たちの厳格に最適化されたネットワークは、Cityscapes-3Dデータセットでテストすると、さまざまなベースラインモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-03-06T05:04:40Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Long-Term Invariant Local Features via Implicit Cross-Domain
Correspondences [79.21515035128832]
我々は、様々なドメイン変更の下で、現在の最先端特徴抽出ネットワークの性能を徹底的に分析する。
我々は、新しいデータ中心方式、Implicit Cross-Domain Correspondences (iCDC)を提案する。
iCDCは複数のニューラル・ラジアンス・フィールドで同じ環境を表し、それぞれが個々の視覚領域の下にシーンを適合させる。
論文 参考訳(メタデータ) (2023-11-06T18:53:01Z) - Dynamic-Resolution Model Learning for Object Pile Manipulation [33.05246884209322]
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。
具体的には、環境の動的分解能粒子表現を構築し、グラフニューラルネットワーク(GNN)を用いた統一力学モデルを学ぶ。
本手法は, 粒状オブジェクトの収集, ソート, 再分配において, 最先端の固定解像度ベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-29T05:51:44Z) - InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene
Understanding [11.608682595506354]
マルチタスクシーン理解は、複数のシーン理解タスクを1つの多目的モデルで同時に予測できるモデルを設計することを目的としている。
従来の研究は通常、より局所的な方法でマルチタスクの特徴を処理するため、空間的にグローバルな相互作用とクロスタスクの相互作用を効果的に学習することはできない。
異なるタスクの空間的特徴間の相互タスク相互作用をグローバルな文脈でモデル化できる逆ピラミッドマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-06-08T00:28:22Z) - Inverted Pyramid Multi-task Transformer for Dense Scene Understanding [11.608682595506354]
InvPT(Invert-to-end Inverted Pyramid Multi-task Transformer)を提案する。
InvPTは効率の良いUP-Transformerブロックを示し、徐々に高解像度でマルチタスク特徴の相互作用を学習する。
提案手法は,NYUD-v2 と PASCAL-Context のデータセット上でのマルチタスク性能を向上し,従来よりも大幅に向上した。
論文 参考訳(メタデータ) (2022-03-15T15:29:08Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。