論文の概要: Language Control Diffusion: Efficiently Scaling through Space, Time, and
Tasks
- arxiv url: http://arxiv.org/abs/2210.15629v2
- Date: Tue, 11 Apr 2023 02:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 18:48:58.599361
- Title: Language Control Diffusion: Efficiently Scaling through Space, Time, and
Tasks
- Title(参考訳): 言語制御の拡散:空間、時間、タスクを効率的にスケーリングする
- Authors: Edwin Zhang, Yujie Lu, William Wang, Amy Zhang
- Abstract要約: 言語制御拡散モデル(Language to Control Diffusion model)は、言語に規定された階層的なプランナーである。
我々は,LCDが拡散モデルの独特な強度を利用してコヒーレントな長距離計画を生成することを実証した。
- 参考スコア(独自算出の注目度): 6.7377944584798914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training generalist agents is difficult across several axes, requiring us to
deal with high-dimensional inputs (space), long horizons (time), and multiple
and new tasks. Recent advances with architectures have allowed for improved
scaling along one or two of these dimensions, but are still prohibitive
computationally. In this paper, we propose to address all three axes by
leveraging Language to Control Diffusion models as a hierarchical planner
conditioned on language (LCD). We effectively and efficiently scale diffusion
models for planning in extended temporal, state, and task dimensions to tackle
long horizon control problems conditioned on natural language instructions. We
compare LCD with other state-of-the-art models on the CALVIN language robotics
benchmark and find that LCD outperforms other SOTA methods in multi task
success rates while dramatically improving computational efficiency with a
single task success rate (SR) of 88.7% against the previous best of 82.6%. We
show that LCD can successfully leverage the unique strength of diffusion models
to produce coherent long range plans while addressing their weakness at
generating low-level details and control. We release our code and models at
https://github.com/ezhang7423/language-control-diffusion.
- Abstract(参考訳): 一般エージェントの訓練は、高次元入力(空間)、長い地平線(時間)、複数の新しいタスクを扱う必要があるため、複数の軸にまたがって難しい。
アーキテクチャの最近の進歩により、これらの次元の1つまたは2つに沿ってスケーリングが改善されたが、それでも計算は禁止されている。
本稿では,Language to Control Diffusion Modelを言語(LCD)に基づく階層型プランナーとして活用することで,3つの軸すべてに対処することを提案する。
自然言語命令に基づく長地平線制御問題に取り組むため,拡張時間,状態,タスク次元における計画のための拡散モデルを効果的かつ効率的に拡張する。
我々は、LCDとCALVIN言語ロボティクスベンチマークの他の最先端モデルとの比較を行い、LCDが従来の82.6%よりも88.7%の単一タスク成功率(SR)で計算効率を劇的に向上させながら、他のSOTA手法をマルチタスク成功率で上回っていることを発見した。
低レベルの細部や制御を行う際の弱点に対処しながら,LCDが拡散モデルの独特な強度を利用してコヒーレントな長距離計画を生成することを示す。
コードとモデルはhttps://github.com/ezhang7423/language-control-diffusionでリリースします。
関連論文リスト
- Fast LiDAR Upsampling using Conditional Diffusion Models [1.3709133749179265]
既存の手法は拡散モデルを用いて高忠実度で洗練されたLiDARデータを生成する可能性を示している。
高速かつ高品質な3次元シーンポイント雲のスパース・ツー・デンスアップサンプリングのための条件拡散モデルに基づく新しいアプローチを提案する。
本手法では,条件付き塗装マスクを用いて訓練した拡散確率モデルを用いて,画像補完タスクの性能向上を図っている。
論文 参考訳(メタデータ) (2024-05-08T08:38:28Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic
Manipulation via Discretisation [24.06630254918129]
我々は最近リリースされたARMアルゴリズムを拡張し、連続する次ベストポーズエージェントを離散的な次ベストポーズエージェントに置き換える。
本稿では,3次元空間を判別することにより,翻訳予測をボクセル予測問題として定式化する。
我々は,RLBenchタスクを連続制御法よりもはるかに効率的に実現できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。