Fugu-MT 論文翻訳(概要): Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks

論文の概要: Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks

arxiv url: http://arxiv.org/abs/2210.15629v2
Date: Tue, 11 Apr 2023 02:15:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 18:48:58.599361
Title: Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks
Title（参考訳）: 言語制御の拡散:空間、時間、タスクを効率的にスケーリングする
Authors: Edwin Zhang, Yujie Lu, William Wang, Amy Zhang
Abstract要約: 言語制御拡散モデル(Language to Control Diffusion model)は、言語に規定された階層的なプランナーである。我々は,LCDが拡散モデルの独特な強度を利用してコヒーレントな長距離計画を生成することを実証した。
参考スコア（独自算出の注目度）: 6.7377944584798914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training generalist agents is difficult across several axes, requiring us to deal with high-dimensional inputs (space), long horizons (time), and multiple and new tasks. Recent advances with architectures have allowed for improved scaling along one or two of these dimensions, but are still prohibitive computationally. In this paper, we propose to address all three axes by leveraging Language to Control Diffusion models as a hierarchical planner conditioned on language (LCD). We effectively and efficiently scale diffusion models for planning in extended temporal, state, and task dimensions to tackle long horizon control problems conditioned on natural language instructions. We compare LCD with other state-of-the-art models on the CALVIN language robotics benchmark and find that LCD outperforms other SOTA methods in multi task success rates while dramatically improving computational efficiency with a single task success rate (SR) of 88.7% against the previous best of 82.6%. We show that LCD can successfully leverage the unique strength of diffusion models to produce coherent long range plans while addressing their weakness at generating low-level details and control. We release our code and models at https://github.com/ezhang7423/language-control-diffusion.
Abstract（参考訳）: 一般エージェントの訓練は、高次元入力(空間)、長い地平線(時間)、複数の新しいタスクを扱う必要があるため、複数の軸にまたがって難しい。アーキテクチャの最近の進歩により、これらの次元の1つまたは2つに沿ってスケーリングが改善されたが、それでも計算は禁止されている。本稿では,Language to Control Diffusion Modelを言語(LCD)に基づく階層型プランナーとして活用することで,3つの軸すべてに対処することを提案する。自然言語命令に基づく長地平線制御問題に取り組むため,拡張時間,状態,タスク次元における計画のための拡散モデルを効果的かつ効率的に拡張する。我々は、LCDとCALVIN言語ロボティクスベンチマークの他の最先端モデルとの比較を行い、LCDが従来の82.6%よりも88.7%の単一タスク成功率(SR)で計算効率を劇的に向上させながら、他のSOTA手法をマルチタスク成功率で上回っていることを発見した。低レベルの細部や制御を行う際の弱点に対処しながら,LCDが拡散モデルの独特な強度を利用してコヒーレントな長距離計画を生成することを示す。コードとモデルはhttps://github.com/ezhang7423/language-control-diffusionでリリースします。

関連論文リスト

Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation [25.025042208824416]
本稿では,MLLMの推論能力と拡散モデルの生成能力を橋渡しするプラグアンドプレイ手法を提案する。まず、拡散モデルのレイアウト認識を、インターリーブされたテキストコーディネート命令形式でトレーニングする。次に、最新のMLLMをプランナとして活用し、包括的レイアウト計画を生成し、それらの空間計画能力を生成プロセスに直接転送する。
論文参考訳（メタデータ） (2026-02-12T14:12:14Z)
MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。 MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文参考訳（メタデータ） (2026-01-27T13:06:47Z)
EL3DD: Extended Latent 3D Diffusion for Language Conditioned Multitask Manipulation [16.468655011980843]
本稿では,ロボットの正確な軌道を生成するために,ビジュモータポリシフレームワーク内での拡散モデルの有用性を活用することを目的とする。トレーニング中に参照デモを利用することで、ロボットの即時環境内でテキストコマンドによって指定された操作タスクを実行することができる。
論文参考訳（メタデータ） (2025-11-17T12:47:18Z)
Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。 DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。 DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文参考訳（メタデータ） (2025-08-01T17:56:07Z)
CtrlDiff: Boosting Large Diffusion Language Models with Dynamic Block Prediction and Controllable Generation [7.250878248686215]
拡散ベースの言語モデルは、強力な並列生成機能と固有の編集性のために、魅力的な代替手段として登場した。ローカルセマンティクスに基づいて各生成ブロックのサイズを適応的に決定する動的かつ制御可能な半自動回帰フレームワークであるCtrlDiffを提案する。
論文参考訳（メタデータ） (2025-05-20T14:52:41Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文参考訳（メタデータ） (2025-02-09T11:25:56Z)
Wavelet Diffusion Neural Operator [17.617919636212445]
本稿では,新しいPDEシミュレーションおよび制御フレームワークであるWavelet Neural Diffusion Operator (WDNO)を提案する。 WDNOはウェーブレット領域で拡散に基づく生成モデルを実行し、急激な変化と長期依存を効果的に処理する。様々な解像度での一般化が不十分な問題に対処するために,マルチレゾリューショントレーニングを導入する。
論文参考訳（メタデータ） (2024-12-06T07:56:25Z)
Discrete Diffusion Language Model for Long Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-06-25T09:55:22Z)
Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文参考訳（メタデータ） (2024-06-05T17:53:26Z)
LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。 LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-16T17:47:16Z)
ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。 ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文参考訳（メタデータ） (2023-11-24T15:20:01Z)
A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:58:42Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic Manipulation via Discretisation [24.06630254918129]
我々は最近リリースされたARMアルゴリズムを拡張し、連続する次ベストポーズエージェントを離散的な次ベストポーズエージェントに置き換える。本稿では,3次元空間を判別することにより,翻訳予測をボクセル予測問題として定式化する。我々は,RLBenchタスクを連続制御法よりもはるかに効率的に実現できることを示す。
論文参考訳（メタデータ） (2021-06-23T16:57:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。