論文の概要: DecisionNCE: Embodied Multimodal Representations via Implicit Preference
Learning
- arxiv url: http://arxiv.org/abs/2402.18137v1
- Date: Wed, 28 Feb 2024 07:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:56:33.199858
- Title: DecisionNCE: Embodied Multimodal Representations via Implicit Preference
Learning
- Title(参考訳): DecisionNCE: インプシット推論学習による身体的マルチモーダル表現
- Authors: Jianxiong Li, Jinliang Zheng, Yinan Zheng, Liyuan Mao, Xiao Hu, Sijie
Cheng, Haoyi Niu, Jihao Liu, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan
Zhan
- Abstract要約: 自律型ロボットにおける表現学習の目標のトリニティのための効果的な戦略として,マルチモーダル事前学習が登場した。
画像シーケンスから意味のあるタスク進行情報を同時に抽出できる統一目的を提案する。
DecisionNCEは、ローカルおよびグローバルなタスク進行機能の両方をエレガントに抽出する、具体化された表現学習フレームワークを提供する。
- 参考スコア(独自算出の注目度): 28.449625251166285
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal pretraining has emerged as an effective strategy for the trinity
of goals of representation learning in autonomous robots: 1) extracting both
local and global task progression information; 2) enforcing temporal
consistency of visual representation; 3) capturing trajectory-level language
grounding. Most existing methods approach these via separate objectives, which
often reach sub-optimal solutions. In this paper, we propose a universal
unified objective that can simultaneously extract meaningful task progression
information from image sequences and seamlessly align them with language
instructions. We discover that via implicit preferences, where a visual
trajectory inherently aligns better with its corresponding language instruction
than mismatched pairs, the popular Bradley-Terry model can transform into
representation learning through proper reward reparameterizations. The resulted
framework, DecisionNCE, mirrors an InfoNCE-style objective but is distinctively
tailored for decision-making tasks, providing an embodied representation
learning framework that elegantly extracts both local and global task
progression features, with temporal consistency enforced through implicit time
contrastive learning, while ensuring trajectory-level instruction grounding via
multimodal joint encoding. Evaluation on both simulated and real robots
demonstrates that DecisionNCE effectively facilitates diverse downstream policy
learning tasks, offering a versatile solution for unified representation and
reward learning. Project Page: https://2toinf.github.io/DecisionNCE/
- Abstract(参考訳): 自律型ロボットにおける表現学習の目標のトリニティのための効果的な戦略として、マルチモーダル事前訓練が登場している。
1) 局所的及びグローバル的タスク進行情報の抽出
2) 視覚表現の時間的一貫性を強制すること。
3) 軌跡レベル言語接頭辞の取得。
既存のほとんどの手法は、しばしば準最適解に到達する別々の目的によってこれらにアプローチする。
本稿では,イメージシーケンスから意味のあるタスクの進行情報を同時に抽出し,それらを言語命令とシームレスに整合させる統一的な目的を提案する。
暗黙の選好により、視覚的軌跡が不一致ペアよりも本質的に対応する言語命令と整合している場合、人気のBradley-Terryモデルは適切な報酬パラメータ化によって表現学習に変換できる。
結果として得られたフレームワークである decisionnce はインフォアンススタイルの目標を反映しているが、意思決定タスクに特化しており、局所的およびグローバルなタスク進行機能の両方をエレガントに抽出し、暗黙の時間的コントラスト学習を通じて時間的一貫性を強制し、マルチモーダルなジョイントエンコーディングによる軌道レベルの命令基底化を保証する、具体化された表現学習フレームワークを提供する。
シミュレーションロボットと実物ロボットの両方の評価は、DecisionNCEが様々な下流政策学習タスクを効果的に促進し、統一表現と報酬学習のための汎用的なソリューションを提供することを示す。
プロジェクトページ: https://2toinf.github.io/decisionnce/
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Semi-supervised Multimodal Representation Learning through a Global Workspace [2.8948274245812335]
グローバルワークスペース」は2つの入力モダリティの共有表現である。
このアーキテクチャは、サイクル一貫性による自己教師型トレーニングに適しています。
このようなアーキテクチャは、一致したデータを必要とすることがほとんどなく、2つのモダリティを調整し、翻訳するように訓練できることを示します。
論文 参考訳(メタデータ) (2023-06-27T12:41:36Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文 参考訳(メタデータ) (2021-09-24T17:44:28Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Following Instructions by Imagining and Reaching Visual Goals [8.19944635961041]
本研究では,空間的推論を用いて時間的に拡張されたタスクを学習するための新しいフレームワークを提案する。
本フレームワークは生の画素画像上で動作し,事前の言語的知識や知覚的知識を前提とせず,本質的なモチベーションを通じて学習する。
シミュレーションによる対話型3D環境において,ロボットアームを用いた2つの環境で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-01-25T23:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。