Fugu-MT 論文翻訳(概要): Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks

論文の概要: Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks

arxiv url: http://arxiv.org/abs/2210.15629v3
Date: Thu, 18 Jan 2024 00:43:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 21:06:44.399242
Title: Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks
Title（参考訳）: 言語制御の拡散:空間、時間、タスクを効率的にスケーリングする
Authors: Edwin Zhang, Yujie Lu, William Wang, Amy Zhang
Abstract要約: ジェネラリストエージェントの訓練は、いくつかの軸で難しい。アーキテクチャの最近の進歩は、これらの軸の1つまたは2つに沿ったスケーリングの改善を可能にしている。 textbfLanguageを textbfControl textbfDiffusion モデルに利用することにより,3つの軸すべてに対処することを提案する。
参考スコア（独自算出の注目度）: 22.641870263733537
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training generalist agents is difficult across several axes, requiring us to deal with high-dimensional inputs (space), long horizons (time), and generalization to novel tasks. Recent advances with architectures have allowed for improved scaling along one or two of these axes, but are still computationally prohibitive to use. In this paper, we propose to address all three axes by leveraging \textbf{L}anguage to \textbf{C}ontrol \textbf{D}iffusion models as a hierarchical planner conditioned on language (LCD). We effectively and efficiently scale diffusion models for planning in extended temporal, state, and task dimensions to tackle long horizon control problems conditioned on natural language instructions, as a step towards generalist agents. Comparing LCD with other state-of-the-art models on the CALVIN language robotics benchmark finds that LCD outperforms other SOTA methods in multi-task success rates, whilst improving inference speed over other comparable diffusion models by 3.3x~15x. We show that LCD can successfully leverage the unique strength of diffusion models to produce coherent long range plans while addressing their weakness in generating low-level details and control.
Abstract（参考訳）: 一般エージェントの訓練は、高次元入力(空間)、長い地平線(時間)、新しいタスクへの一般化を必要とする複数の軸で困難である。アーキテクチャの最近の進歩により、これらの軸の1つまたは2つに沿ってスケーリングが改善されたが、それでも計算上は使用が禁止されている。本稿では,言語条件付き階層型プランナー (lcd) として \textbf{l}anguage から \textbf{c}ontrol \textbf{d}iffusion モデルを用いることにより,これら3つの軸すべてに対処することを提案する。我々は,自然言語命令に基づく長方形制御問題に取り組むために,時間的,状態的,タスク的次元の計画のための拡散モデルを効果的かつ効率的に拡張する。 CALVIN言語ロボティクスベンチマークの他の最先端モデルと比較すると、LCDは他のSOTA法をマルチタスクの成功率で上回り、他の同等の拡散モデルよりも3.3x~15倍の推論速度が向上している。低レベルの細部や制御の弱点に対処しながら, 拡散モデルの独特な強度を利用してコヒーレントな長距離計画を作成することができることを示す。

関連論文リスト

Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。 DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。 DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文参考訳（メタデータ） (2025-08-01T17:56:07Z)
CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation [7.250878248686215]
拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。ローカルセマンティクスに基づいて各生成ブロックのサイズを適応的に決定する動的かつ制御可能な半自動回帰フレームワークであるCtrlDiffを提案する。
論文参考訳（メタデータ） (2025-05-20T14:52:41Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文参考訳（メタデータ） (2025-02-09T11:25:56Z)
Wavelet Diffusion Neural Operator [17.617919636212445]
本稿では,新しいPDEシミュレーションおよび制御フレームワークであるWavelet Neural Diffusion Operator (WDNO)を提案する。 WDNOはウェーブレット領域で拡散に基づく生成モデルを実行し、急激な変化と長期依存を効果的に処理する。様々な解像度での一般化が不十分な問題に対処するために,マルチレゾリューショントレーニングを導入する。
論文参考訳（メタデータ） (2024-12-06T07:56:25Z)
Discrete Diffusion Language Model for Long Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-06-25T09:55:22Z)
Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文参考訳（メタデータ） (2024-06-05T17:53:26Z)
LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。 LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-16T17:47:16Z)
ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。 ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文参考訳（メタデータ） (2023-11-24T15:20:01Z)
A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:58:42Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic Manipulation via Discretisation [24.06630254918129]
我々は最近リリースされたARMアルゴリズムを拡張し、連続する次ベストポーズエージェントを離散的な次ベストポーズエージェントに置き換える。本稿では,3次元空間を判別することにより,翻訳予測をボクセル予測問題として定式化する。我々は,RLBenchタスクを連続制御法よりもはるかに効率的に実現できることを示す。
論文参考訳（メタデータ） (2021-06-23T16:57:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。