論文の概要: Text2Data: Low-Resource Data Generation with Textual Control
- arxiv url: http://arxiv.org/abs/2402.10941v1
- Date: Thu, 8 Feb 2024 03:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-25 17:03:27.049626
- Title: Text2Data: Low-Resource Data Generation with Textual Control
- Title(参考訳): Text2Data: テキスト制御による低リソースデータ生成
- Authors: Shiyu Wang, Yihao Feng, Tian Lan, Ning Yu, Yu Bai, Ran Xu, Huan Wang,
Caiming Xiong, Silvio Savarese
- Abstract要約: 自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
- 参考スコア(独自算出の注目度): 104.38011760992637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language serves as a common and straightforward control signal for
humans to interact seamlessly with machines. Recognizing the importance of this
interface, the machine learning community is investing considerable effort in
generating data that is semantically coherent with textual instructions. While
strides have been made in text-to-data generation spanning image editing, audio
synthesis, video creation, and beyond, low-resource areas characterized by
expensive annotations or complex data structures, such as molecules, motion
dynamics, and time series, often lack textual labels. This deficiency impedes
supervised learning, thereby constraining the application of advanced
generative models for text-to-data tasks. In response to these challenges in
the low-resource scenario, we propose Text2Data, a novel approach that utilizes
unlabeled data to understand the underlying data distribution through an
unsupervised diffusion model. Subsequently, it undergoes controllable
finetuning via a novel constraint optimization-based learning objective that
ensures controllability and effectively counteracts catastrophic forgetting.
Comprehensive experiments demonstrate that Text2Data is able to achieve
enhanced performance regarding controllability across various modalities,
including molecules, motions and time series, when compared to existing
baselines.
- Abstract(参考訳): 自然言語は人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
このインターフェースの重要性を認識した機械学習コミュニティは、テキスト命令と意味的に一貫性のあるデータを生成することに多大な努力を払っている。
画像編集、音声合成、ビデオ作成などを含むテキスト・データ生成において進歩を遂げてきたが、高価なアノテーションや分子、モーションダイナミクス、時系列といった複雑なデータ構造を特徴とする低リソース領域は、しばしばテキストラベルを欠いている。
この欠陥は教師付き学習を妨げるため、テキストからデータへのタスクに対する高度な生成モデルの適用が制限される。
低リソースシナリオにおけるこれらの課題に対応して、ラベルなしデータを用いて教師なし拡散モデルを通じて基礎となるデータ分布を理解する新しいアプローチであるtext2dataを提案する。
その後、新しい制約最適化に基づく学習目標を通じて制御可能な微調整を行い、制御性を確保し、破滅的な忘れを効果的に防止する。
総合的な実験により、Text2Dataは、既存のベースラインと比較して、分子、モーション、時系列を含む様々なモードの制御性に関するパフォーマンスを向上できることを示した。
関連論文リスト
- Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - STA: Self-controlled Text Augmentation for Improving Text
Classifications [2.9669250132689164]
自然言語処理(NLP)の分野では,テキスト拡張技術が数多く出現している。
STA(Self-Controlled Text Augmentation)のための最先端手法を提案する。
提案手法は,生成したサンプルが元のテキストのセマンティックな内容を保持することを保証するための自己チェック手順を導入することで,生成過程を厳しく制御する。
論文 参考訳(メタデータ) (2023-02-24T17:54:12Z) - Leveraging Key Information Modeling to Improve Less-Data Constrained
News Headline Generation via Duality Fine-Tuning [12.443476695459553]
本稿では,鍵情報予測と見出し生成タスクの確率的双対性制約を定式化することにより,新しい双対性微調整法を提案する。
提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築することができ、データ制約の少ない生成タスクに適している。
提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-10-10T07:59:36Z) - Leveraging Natural Supervision for Language Representation Learning and
Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。
まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。
文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T17:26:03Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。
提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2021-02-04T16:32:57Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。