論文の概要: ALP: Action-Aware Embodied Learning for Perception
- arxiv url: http://arxiv.org/abs/2306.10190v2
- Date: Tue, 17 Oct 2023 15:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:07:55.855829
- Title: ALP: Action-Aware Embodied Learning for Perception
- Title(参考訳): ALP: 認知のための行動認識型身体学習
- Authors: Xinran Liang, Anthony Han, Wilson Yan, Aditi Raghunathan, Pieter
Abbeel
- Abstract要約: 認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 60.64801970249279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods in training and benchmarking vision models exhibit an
over-reliance on passive, curated datasets. Although models trained on these
datasets have shown strong performance in a wide variety of tasks such as
classification, detection, and segmentation, they fundamentally are unable to
generalize to an ever-evolving world due to constant out-of-distribution shifts
of input data. Therefore, instead of training on fixed datasets, can we
approach learning in a more human-centric and adaptive manner? In this paper,
we introduce Action-Aware Embodied Learning for Perception (ALP), an embodied
learning framework that incorporates action information into representation
learning through a combination of optimizing a reinforcement learning policy
and an inverse dynamics prediction objective. Our method actively explores in
complex 3D environments to both learn generalizable task-agnostic visual
representations as well as collect downstream training data. We show that ALP
outperforms existing baselines in several downstream perception tasks. In
addition, we show that by training on actively collected data more relevant to
the environment and task, our method generalizes more robustly to downstream
tasks compared to models pre-trained on fixed datasets such as ImageNet.
- Abstract(参考訳): 視覚モデルのトレーニングとベンチマークの現在の手法は、受動的でキュレートされたデータセットに対する過度な信頼を示す。
これらのデータセットでトレーニングされたモデルは、分類、検出、セグメンテーションといった幅広いタスクで強力なパフォーマンスを示しているが、入力データの分散シフトが絶え間なく変化するため、基本的に進化し続ける世界に一般化することはできない。
したがって、固定データセットのトレーニングの代わりに、より人間中心で適応的な方法で学習にアプローチできるだろうか?
本稿では、強化学習ポリシーの最適化と逆ダイナミクス予測の目的を組み合わせて、行動情報を表現学習に組み込む組込み学習フレームワークであるAction-Aware Embodied Learning for Perception (ALP)を紹介する。
本手法は複雑な3次元環境を探索し,タスクに依存しない視覚表現を学習し,下流のトレーニングデータを収集する。
alpは複数の下流知覚タスクにおいて既存のベースラインを上回っている。
さらに,本手法は,環境やタスクに関連性の高いデータを積極的に収集することで,ImageNetなどの固定データセット上で事前学習したモデルと比較して,下流タスクに頑健に一般化することを示す。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Automatic Identification and Visualization of Group Training Activities Using Wearable Data [7.130450173185638]
Human Activity Recognition (HAR)は、スマートウォッチのようなウェアラブルデバイスによって収集された時系列データから日々のアクティビティを特定する。
本稿では,ウェアラブルデータからアクティビティを計算,分析,識別するための包括的枠組みを提案する。
当社のアプローチは、Garmin 55スマートウォッチを6ヶ月にわたって装着した135人の兵士から収集されたデータに基づいています。
論文 参考訳(メタデータ) (2024-10-07T19:35:15Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - Robust Representation Learning via Perceptual Similarity Metrics [18.842322467828502]
Contrastive Input Morphing (CIM) はデータの入力空間変換を学習する表現学習フレームワークである。
CIMは他の相互情報に基づく表現学習技術と相補的であることを示す。
論文 参考訳(メタデータ) (2021-06-11T21:45:44Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。