Fugu-MT 論文翻訳(概要): Theia: Distilling Diverse Vision Foundation Models for Robot Learning

論文の概要: Theia: Distilling Diverse Vision Foundation Models for Robot Learning

arxiv url: http://arxiv.org/abs/2407.20179v2
Date: Thu, 10 Oct 2024 17:27:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 14:16:02.077215
Title: Theia: Distilling Diverse Vision Foundation Models for Robot Learning
Title（参考訳）: Theia: ロボット学習のためのディバイス・ビジョン・ファンデーション・モデル
Authors: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant,
Abstract要約: Theiaは、さまざまな視覚タスクで訓練された複数の市販の視覚基礎モデルを蒸留する、ロボット学習のためのビジョン基礎モデルである。テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。
参考スコア（独自算出の注目度）: 6.709078873834651
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code, models, and demo are available at https://theia.theaiinstitute.com.
Abstract（参考訳）: 視覚に基づくロボットポリシー学習は、視覚的な入力をアクションにマッピングする。そこで我々は,ロボット学習のための視覚基礎モデルであるTheiaを紹介した。テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。大規模な実験により、Theiaは、より少ないトレーニングデータとより小さなモデルサイズを使用して、教師モデルとそれ以前のロボット学習モデルより優れていることが示された。さらに,事前学習した視覚表現の品質を定量化し,特徴ノルム分布のエントロピーの向上がロボット学習性能の向上につながると仮定する。コード、モデル、デモはhttps://theia.theaiinstitute.comで公開されている。

関連論文リスト

Simulated Cortical Magnification Supports Self-Supervised Object Learning [8.07351541700131]
近年の自己教師型学習モデルでは,幼児と同様の視覚的体験を訓練することで,意味オブジェクト表現の発達をシミュレートしている。本稿では,オブジェクト表現の発達において,この様々な解決法が果たす役割について考察する。
論文参考訳（メタデータ） (2025-09-19T08:28:06Z)
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models [27.806966289284528]
本稿では、スパースオートエンコーダ(SAE)を用いて、人間の解釈可能な視覚的特徴を発見する統一的なフレームワークを提案する。そこで本研究では,SAEがモデル再学習を行なわずに,解釈可能な視覚特徴を確実に識別・操作できることを示す。
論文参考訳（メタデータ） (2025-02-10T18:32:41Z)
Differentiable Robot Rendering [45.23538293501457]
本稿では,ロボット本体の視覚的外観を,その制御パラメータに対して直接微分可能とするロボットレンダリングについて紹介する。画像からロボットのポーズを復元したり、視覚言語モデルを用いてロボットを制御するなど、その能力と用途を実演する。
論文参考訳（メタデータ） (2024-10-17T17:59:02Z)
KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文参考訳（メタデータ） (2024-09-21T08:45:16Z)
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文参考訳（メタデータ） (2024-06-17T17:55:29Z)
Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文参考訳（メタデータ） (2023-08-07T14:24:52Z)
GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文参考訳（メタデータ） (2023-06-01T14:02:45Z)
Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。 VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-05-28T17:53:09Z)
Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文参考訳（メタデータ） (2022-06-28T18:42:27Z)
3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文参考訳（メタデータ） (2021-07-08T17:49:37Z)
Learning to See before Learning to Act: Visual Pre-training for Manipulation [48.731528716324355]
視覚タスクの事前学習は、物体を操作するための学習の一般化とサンプル効率を大幅に向上させる。本稿では,モデルパラメータを視覚ネットワークからアベイランス予測ネットワークへ直接転送することで,ゼロショット適応が成功することを示す。ほんの少しのロボット経験があれば、より優れた結果を得るために、余分なモデルをさらに微調整できる。
論文参考訳（メタデータ） (2021-07-01T17:58:37Z)
Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T23:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。