論文の概要: Language Control Diffusion: Efficiently Scaling through Space, Time, and
Tasks
- arxiv url: http://arxiv.org/abs/2210.15629v3
- Date: Thu, 18 Jan 2024 00:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 21:06:44.399242
- Title: Language Control Diffusion: Efficiently Scaling through Space, Time, and
Tasks
- Title(参考訳): 言語制御の拡散:空間、時間、タスクを効率的にスケーリングする
- Authors: Edwin Zhang, Yujie Lu, William Wang, Amy Zhang
- Abstract要約: ジェネラリストエージェントの訓練は、いくつかの軸で難しい。
アーキテクチャの最近の進歩は、これらの軸の1つまたは2つに沿ったスケーリングの改善を可能にしている。
textbfLanguageを textbfControl textbfDiffusion モデルに利用することにより,3つの軸すべてに対処することを提案する。
- 参考スコア(独自算出の注目度): 22.641870263733537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training generalist agents is difficult across several axes, requiring us to
deal with high-dimensional inputs (space), long horizons (time), and
generalization to novel tasks. Recent advances with architectures have allowed
for improved scaling along one or two of these axes, but are still
computationally prohibitive to use. In this paper, we propose to address all
three axes by leveraging \textbf{L}anguage to \textbf{C}ontrol
\textbf{D}iffusion models as a hierarchical planner conditioned on language
(LCD). We effectively and efficiently scale diffusion models for planning in
extended temporal, state, and task dimensions to tackle long horizon control
problems conditioned on natural language instructions, as a step towards
generalist agents. Comparing LCD with other state-of-the-art models on the
CALVIN language robotics benchmark finds that LCD outperforms other SOTA
methods in multi-task success rates, whilst improving inference speed over
other comparable diffusion models by 3.3x~15x. We show that LCD can
successfully leverage the unique strength of diffusion models to produce
coherent long range plans while addressing their weakness in generating
low-level details and control.
- Abstract(参考訳): 一般エージェントの訓練は、高次元入力(空間)、長い地平線(時間)、新しいタスクへの一般化を必要とする複数の軸で困難である。
アーキテクチャの最近の進歩により、これらの軸の1つまたは2つに沿ってスケーリングが改善されたが、それでも計算上は使用が禁止されている。
本稿では,言語条件付き階層型プランナー (lcd) として \textbf{l}anguage から \textbf{c}ontrol \textbf{d}iffusion モデルを用いることにより,これら3つの軸すべてに対処することを提案する。
我々は,自然言語命令に基づく長方形制御問題に取り組むために,時間的,状態的,タスク的次元の計画のための拡散モデルを効果的かつ効率的に拡張する。
CALVIN言語ロボティクスベンチマークの他の最先端モデルと比較すると、LCDは他のSOTA法をマルチタスクの成功率で上回り、他の同等の拡散モデルよりも3.3x~15倍の推論速度が向上している。
低レベルの細部や制御の弱点に対処しながら, 拡散モデルの独特な強度を利用してコヒーレントな長距離計画を作成することができることを示す。
関連論文リスト
- Discrete Diffusion Language Model for Long Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。
提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-25T09:55:22Z) - Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文 参考訳(メタデータ) (2024-06-05T17:53:26Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic
Manipulation via Discretisation [24.06630254918129]
我々は最近リリースされたARMアルゴリズムを拡張し、連続する次ベストポーズエージェントを離散的な次ベストポーズエージェントに置き換える。
本稿では,3次元空間を判別することにより,翻訳予測をボクセル予測問題として定式化する。
我々は,RLBenchタスクを連続制御法よりもはるかに効率的に実現できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。