論文の概要: BAD: Bidirectional Auto-regressive Diffusion for Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2409.10847v1
- Date: Tue, 17 Sep 2024 02:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 18:06:56.159926
- Title: BAD: Bidirectional Auto-regressive Diffusion for Text-to-Motion Generation
- Title(参考訳): BAD:テキスト・トゥ・モーション・ジェネレーションのための双方向自己回帰拡散
- Authors: S. Rohollah Hosseyni, Ali Ahmad Rahmani, S. Jamal Seyedmohammadi, Sanaz Seyedin, Arash Mohammadi,
- Abstract要約: 双方向自己回帰拡散(BAD)は、自己回帰モデルとマスクベースの生成モデルの強みを統一する新しいアプローチである。
BADは、因果依存性を強制しながら自然配列構造を保存する、置換に基づく汚職技術を利用する。
総合的な実験により、BADはテキスト・ツー・モーション生成において自己回帰モデルやマスクベースのモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 4.945357788617835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive models excel in modeling sequential dependencies by enforcing causal constraints, yet they struggle to capture complex bidirectional patterns due to their unidirectional nature. In contrast, mask-based models leverage bidirectional context, enabling richer dependency modeling. However, they often assume token independence during prediction, which undermines the modeling of sequential dependencies. Additionally, the corruption of sequences through masking or absorption can introduce unnatural distortions, complicating the learning process. To address these issues, we propose Bidirectional Autoregressive Diffusion (BAD), a novel approach that unifies the strengths of autoregressive and mask-based generative models. BAD utilizes a permutation-based corruption technique that preserves the natural sequence structure while enforcing causal dependencies through randomized ordering, enabling the effective capture of both sequential and bidirectional relationships. Comprehensive experiments show that BAD outperforms autoregressive and mask-based models in text-to-motion generation, suggesting a novel pre-training strategy for sequence modeling. The codebase for BAD is available on https://github.com/RohollahHS/BAD.
- Abstract(参考訳): 自己回帰モデルは因果制約を強制することによって逐次依存関係のモデリングに優れるが、その一方向の性質から複雑な双方向パターンを捉えるのに苦労する。
対照的に、マスクベースのモデルは双方向のコンテキストを活用し、よりリッチな依存性モデリングを可能にする。
しかしながら、予測中にトークン独立を前提とすることで、シーケンシャルな依存関係のモデリングを損なうことも多い。
さらに、マスクや吸収によるシーケンスの破損は、学習過程を複雑にする不自然な歪みをもたらす可能性がある。
これらの課題に対処するために,自動回帰モデルとマスクベース生成モデルの強みを統一する新しいアプローチである双方向自己回帰拡散(BAD)を提案する。
BADは、ランダムな順序付けを通じて因果関係を強制しながら自然配列構造を保存し、逐次的および双方向的な関係を効果的に捕捉する、置換に基づく汚職手法を用いる。
総合的な実験により、BADはテキスト・ツー・モーション生成において自己回帰モデルやマスクベースのモデルよりも優れており、シーケンス・モデリングのための新たな事前学習戦略が示唆されている。
BADのコードベースはhttps://github.com/RohollahHS/BADで公開されている。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。