論文の概要: Text2Data: Low-Resource Data Generation with Textual Control
- arxiv url: http://arxiv.org/abs/2402.10941v1
- Date: Thu, 8 Feb 2024 03:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-25 17:03:27.049626
- Title: Text2Data: Low-Resource Data Generation with Textual Control
- Title(参考訳): Text2Data: テキスト制御による低リソースデータ生成
- Authors: Shiyu Wang, Yihao Feng, Tian Lan, Ning Yu, Yu Bai, Ran Xu, Huan Wang,
Caiming Xiong, Silvio Savarese
- Abstract要約: 自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
- 参考スコア(独自算出の注目度): 104.38011760992637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language serves as a common and straightforward control signal for
humans to interact seamlessly with machines. Recognizing the importance of this
interface, the machine learning community is investing considerable effort in
generating data that is semantically coherent with textual instructions. While
strides have been made in text-to-data generation spanning image editing, audio
synthesis, video creation, and beyond, low-resource areas characterized by
expensive annotations or complex data structures, such as molecules, motion
dynamics, and time series, often lack textual labels. This deficiency impedes
supervised learning, thereby constraining the application of advanced
generative models for text-to-data tasks. In response to these challenges in
the low-resource scenario, we propose Text2Data, a novel approach that utilizes
unlabeled data to understand the underlying data distribution through an
unsupervised diffusion model. Subsequently, it undergoes controllable
finetuning via a novel constraint optimization-based learning objective that
ensures controllability and effectively counteracts catastrophic forgetting.
Comprehensive experiments demonstrate that Text2Data is able to achieve
enhanced performance regarding controllability across various modalities,
including molecules, motions and time series, when compared to existing
baselines.
- Abstract(参考訳): 自然言語は人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
このインターフェースの重要性を認識した機械学習コミュニティは、テキスト命令と意味的に一貫性のあるデータを生成することに多大な努力を払っている。
画像編集、音声合成、ビデオ作成などを含むテキスト・データ生成において進歩を遂げてきたが、高価なアノテーションや分子、モーションダイナミクス、時系列といった複雑なデータ構造を特徴とする低リソース領域は、しばしばテキストラベルを欠いている。
この欠陥は教師付き学習を妨げるため、テキストからデータへのタスクに対する高度な生成モデルの適用が制限される。
低リソースシナリオにおけるこれらの課題に対応して、ラベルなしデータを用いて教師なし拡散モデルを通じて基礎となるデータ分布を理解する新しいアプローチであるtext2dataを提案する。
その後、新しい制約最適化に基づく学習目標を通じて制御可能な微調整を行い、制御性を確保し、破滅的な忘れを効果的に防止する。
総合的な実験により、Text2Dataは、既存のベースラインと比較して、分子、モーション、時系列を含む様々なモードの制御性に関するパフォーマンスを向上できることを示した。
関連論文リスト
- READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data [7.152603583363887]
BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。
本稿では,強化学習に基づくテキスト生成と半教師付き対角学習アプローチをカプセル化する手法を提案する。
提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成する。
論文 参考訳(メタデータ) (2025-01-14T11:39:55Z) - Enhancing Text Generation in Joint NLG/NLU Learning Through Curriculum Learning, Semi-Supervised Training, and Advanced Optimization Techniques [0.0]
本研究では,NLG(Natural Language Generation)とNLU(Natural Language Understanding)の併用によってテキスト生成を改善する手法を開発した。
データは、クリーニング、トークン化、ストーミング、ストップワード削除など、注釈付きデータセットの収集と前処理によって作成される。
トランスフォーマーベースのエンコーダとデコーダ、長距離依存関係のキャプチャ、ソースターゲットシーケンスモデリングの改善。
政策勾配手法による強化学習、半教師付きトレーニング、注意機構の改善、および異なる近似を用いて、モデルを微調整し、複雑な言語タスクを効果的に処理する。
論文 参考訳(メタデータ) (2024-10-17T12:43:49Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - Leveraging Natural Supervision for Language Representation Learning and
Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。
まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。
文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T17:26:03Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。
提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2021-02-04T16:32:57Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。