論文の概要: Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks
- arxiv url: http://arxiv.org/abs/2210.15629v4
- Date: Mon, 09 Dec 2024 02:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:51:53.015502
- Title: Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks
- Title(参考訳): 言語制御拡散: 空間、時間、タスクを効果的にスケールする
- Authors: Edwin Zhang, Yujie Lu, Shinda Huang, William Wang, Amy Zhang,
- Abstract要約: ジェネラリストエージェントの訓練は、いくつかの軸で難しい。
アーキテクチャの最近の進歩は、これらの軸の1つまたは2つに沿ったスケーリングの改善を可能にしている。
textbfLanguageを textbfControl textbfDiffusion モデルに利用することにより,3つの軸すべてに対処することを提案する。
- 参考スコア(独自算出の注目度): 19.31888436751106
- License:
- Abstract: Training generalist agents is difficult across several axes, requiring us to deal with high-dimensional inputs (space), long horizons (time), and generalization to novel tasks. Recent advances with architectures have allowed for improved scaling along one or two of these axes, but are still computationally prohibitive to use. In this paper, we propose to address all three axes by leveraging \textbf{L}anguage to \textbf{C}ontrol \textbf{D}iffusion models as a hierarchical planner conditioned on language (LCD). We effectively and efficiently scale diffusion models for planning in extended temporal, state, and task dimensions to tackle long horizon control problems conditioned on natural language instructions, as a step towards generalist agents. Comparing LCD with other state-of-the-art models on the CALVIN language robotics benchmark finds that LCD outperforms other SOTA methods in multi-task success rates, whilst improving inference speed over other comparable diffusion models by 3.3x~15x. We show that LCD can successfully leverage the unique strength of diffusion models to produce coherent long range plans while addressing their weakness in generating low-level details and control.
- Abstract(参考訳): 一般エージェントの訓練は、高次元入力(空間)、長い地平線(時間)、新しいタスクへの一般化を必要とするため、複数の軸にまたがって困難である。
アーキテクチャの最近の進歩により、これらの軸の1つまたは2つに沿ったスケーリングの改善が可能になったが、依然として計算上は使用が禁止されている。
本稿では,言語(LCD)を前提とした階層型プランナーとして,次の3つの軸に対処することを提案する。
時空間, 状態, タスク次元の計画のための拡散モデルを効果的かつ効率的にスケールし, 汎用エージェントへのステップとして, 自然言語命令に基づく長い地平線制御問題に対処する。
CALVIN言語ロボティクスベンチマークの他の最先端モデルと比較すると、LCDは他のSOTA法をマルチタスクの成功率で上回り、他の同等の拡散モデルよりも3.3x~15倍の推論速度が向上している。
低レベルの細部や制御の弱点に対処しながら, 拡散モデルの特異な強度を利用してコヒーレントな長距離計画を作成することができることを示す。
関連論文リスト
- Discrete Diffusion Language Model for Long Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。
提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-25T09:55:22Z) - Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文 参考訳(メタデータ) (2024-06-05T17:53:26Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic
Manipulation via Discretisation [24.06630254918129]
我々は最近リリースされたARMアルゴリズムを拡張し、連続する次ベストポーズエージェントを離散的な次ベストポーズエージェントに置き換える。
本稿では,3次元空間を判別することにより,翻訳予測をボクセル予測問題として定式化する。
我々は,RLBenchタスクを連続制御法よりもはるかに効率的に実現できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。