論文の概要: A System for Morphology-Task Generalization via Unified Representation
and Behavior Distillation
- arxiv url: http://arxiv.org/abs/2211.14296v1
- Date: Fri, 25 Nov 2022 18:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:33:23.705331
- Title: A System for Morphology-Task Generalization via Unified Representation
and Behavior Distillation
- Title(参考訳): 統一表現と行動蒸留による形態素過程の一般化システム
- Authors: Hiroki Furuta, Yusuke Iwasawa, Yutaka Matsuo, Shixiang Shane Gu
- Abstract要約: 本研究では,多量の熟練した行動データを蒸留することにより,様々な形態のエージェントを操り,様々なタスクをこなす単一ポリシーを学習する方法について検討する。
本稿では, 観測, 行動, 目標/タスクを統一されたグラフ表現で扱うモルフォロジー・タスクグラフを紹介する。
また,多種多様な形態とタスクの組み合わせの手続き的生成を支援する高速な大規模行動生成のためのMxT-Benchを開発した。
- 参考スコア(独自算出の注目度): 28.041319351752485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of generalist large-scale models in natural language and vision has
made us expect that a massive data-driven approach could achieve broader
generalization in other domains such as continuous control. In this work, we
explore a method for learning a single policy that manipulates various forms of
agents to solve various tasks by distilling a large amount of proficient
behavioral data. In order to align input-output (IO) interface among multiple
tasks and diverse agent morphologies while preserving essential 3D geometric
relations, we introduce morphology-task graph, which treats observations,
actions and goals/task in a unified graph representation. We also develop
MxT-Bench for fast large-scale behavior generation, which supports procedural
generation of diverse morphology-task combinations with a minimal blueprint and
hardware-accelerated simulator. Through efficient representation and
architecture selection on MxT-Bench, we find out that a morphology-task graph
representation coupled with Transformer architecture improves the multi-task
performances compared to other baselines including recent discrete
tokenization, and provides better prior knowledge for zero-shot transfer or
sample efficiency in downstream multi-task imitation learning. Our work
suggests large diverse offline datasets, unified IO representation, and policy
representation and architecture selection through supervised learning form a
promising approach for studying and advancing morphology-task generalization.
- Abstract(参考訳): 自然言語や視覚における汎用的な大規模モデルの台頭により、データ駆動型アプローチが、連続制御などの他の領域におけるより広範な一般化を実現することが期待できる。
本研究では,多量の習熟行動データを蒸留することにより,各種エージェントを操作し,様々な課題を解決する単一ポリシーを学習する方法について検討する。
そこで,本質的な3次元幾何学的関係を維持しつつ,複数のタスクと多様なエージェント形態の入力出力 (io) インタフェースを調整するために,観察,行動,目標/タスクを統一グラフ表現で扱う形態素タスクグラフを提案する。
また,mxt-bench を開発し,ハードウェアアクセラレーションシミュレータによる多種多様な形態・タスクの組み合わせの手続き的生成を支援する。
MxT-Bench上での効率的な表現とアーキテクチャ選択により、トランスフォーマーアーキテクチャと結合したモルフォロジー-タスクグラフ表現は、最近の離散トークン化を含む他のベースラインと比較してマルチタスク性能を改善し、下流マルチタスク模倣学習におけるゼロショット転送やサンプル効率の事前知識を提供する。
私たちの研究は、大規模に多様なオフラインデータセット、統一されたio表現、教師付き学習によるポリシー表現とアーキテクチャの選択を示唆しています。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - DEPHN: Different Expression Parallel Heterogeneous Network using virtual
gradient optimization for Multi-task Learning [1.0705399532413615]
マルチタスク学習(MTL)に基づく推薦システムアルゴリズムは、インターネットオペレーターがユーザを理解し、その振る舞いを予測する主要な方法である。
従来のモデルでは、共有ボットモデルとゲーティングの専門家を使用して、共有表現学習と情報の差別化を実現している。
本稿では,複数のタスクを同時にモデル化するための異なる表現並列不均一ネットワーク(DEPHN)を提案する。
論文 参考訳(メタデータ) (2023-07-24T04:29:00Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Dynamic-Resolution Model Learning for Object Pile Manipulation [33.05246884209322]
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。
具体的には、環境の動的分解能粒子表現を構築し、グラフニューラルネットワーク(GNN)を用いた統一力学モデルを学ぶ。
本手法は, 粒状オブジェクトの収集, ソート, 再分配において, 最先端の固定解像度ベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-29T05:51:44Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。