論文の概要: DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning
- arxiv url: http://arxiv.org/abs/2402.18137v2
- Date: Fri, 24 May 2024 03:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 20:56:39.360332
- Title: DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning
- Title(参考訳): DecisionNCE: インプシット推論学習による身体的マルチモーダル表現
- Authors: Jianxiong Li, Jinliang Zheng, Yinan Zheng, Liyuan Mao, Xiao Hu, Sijie Cheng, Haoyi Niu, Jihao Liu, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan,
- Abstract要約: マルチモーダル・プレトレーニングは,自律型ロボットにおける表現学習の目標のトリニティのための効果的な戦略である。
画像シーケンスから意味のあるタスク進行情報を同時に抽出できる統一目的を提案する。
DecisionNCEは、ローカルおよびグローバルなタスク進行機能の両方をエレガントに抽出する、具体化された表現学習フレームワークを提供する。
- 参考スコア(独自算出の注目度): 27.705230758809094
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal pretraining is an effective strategy for the trinity of goals of representation learning in autonomous robots: 1) extracting both local and global task progressions; 2) enforcing temporal consistency of visual representation; 3) capturing trajectory-level language grounding. Most existing methods approach these via separate objectives, which often reach sub-optimal solutions. In this paper, we propose a universal unified objective that can simultaneously extract meaningful task progression information from image sequences and seamlessly align them with language instructions. We discover that via implicit preferences, where a visual trajectory inherently aligns better with its corresponding language instruction than mismatched pairs, the popular Bradley-Terry model can transform into representation learning through proper reward reparameterizations. The resulted framework, DecisionNCE, mirrors an InfoNCE-style objective but is distinctively tailored for decision-making tasks, providing an embodied representation learning framework that elegantly extracts both local and global task progression features, with temporal consistency enforced through implicit time contrastive learning, while ensuring trajectory-level instruction grounding via multimodal joint encoding. Evaluation on both simulated and real robots demonstrates that DecisionNCE effectively facilitates diverse downstream policy learning tasks, offering a versatile solution for unified representation and reward learning. Project Page: https://2toinf.github.io/DecisionNCE/
- Abstract(参考訳): マルチモーダル事前学習は、自律ロボットにおける表現学習の目標のトリニティのための効果的な戦略である。
1) 局地的及びグローバルな業務の進展を抽出すること。
2) 視覚表現の時間的一貫性を強制すること。
3) 軌跡レベル言語接頭辞の取得。
既存のほとんどの手法は、しばしば準最適解に到達する別々の目的によってこれらにアプローチする。
本稿では,イメージシーケンスから意味のあるタスクの進行情報を同時に抽出し,それらを言語命令とシームレスに整合させる汎用的な統合目的を提案する。
暗黙の選好により、視覚的軌跡が、不一致ペアよりも本質的に対応する言語命令と整合している場合、人気のBradley-Terryモデルは、適切な報酬パラメータ化によって表現学習に変換できる。
結果として得られたフレームワークであるDecisionNCEはInfoNCEスタイルの目的を反映するが、決定タスクに特化して調整されており、局所的およびグローバルなタスクの進行特徴をエレガントに抽出し、暗黙の時間的コントラスト学習によって時間的一貫性を強制し、マルチモーダルな関節符号化による軌道レベルの命令グラウンドを確実にする、具体化された表現学習フレームワークを提供する。
シミュレーションロボットと実物ロボットの両方の評価は、DecisionNCEが様々な下流政策学習タスクを効果的に促進し、統一表現と報酬学習のための汎用的なソリューションを提供することを示す。
Project Page: https://2toinf.github.io/DecisionNCE/
関連論文リスト
- Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics [25.2461925479135]
Video-Language Criticは、簡単に利用可能なクロスボディデータに基づいてトレーニングできる報酬モデルである。
我々のモデルは、スパース報酬のみよりもメタワールドタスクにおける2倍のサンプル効率のポリシートレーニングを可能にします。
論文 参考訳(メタデータ) (2024-05-30T12:18:06Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文 参考訳(メタデータ) (2021-09-24T17:44:28Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Following Instructions by Imagining and Reaching Visual Goals [8.19944635961041]
本研究では,空間的推論を用いて時間的に拡張されたタスクを学習するための新しいフレームワークを提案する。
本フレームワークは生の画素画像上で動作し,事前の言語的知識や知覚的知識を前提とせず,本質的なモチベーションを通じて学習する。
シミュレーションによる対話型3D環境において,ロボットアームを用いた2つの環境で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-01-25T23:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。