Fugu-MT 論文翻訳(概要): Text2Data: Low-Resource Data Generation with Textual Control

論文の概要: Text2Data: Low-Resource Data Generation with Textual Control

arxiv url: http://arxiv.org/abs/2402.10941v2
Date: Thu, 02 Jan 2025 17:47:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-03 22:24:07.695798
Title: Text2Data: Low-Resource Data Generation with Textual Control
Title（参考訳）: Text2Data: テキスト制御による低リソースデータ生成
Authors: Shiyu Wang, Yihao Feng, Tian Lan, Ning Yu, Yu Bai, Ran Xu, Huan Wang, Caiming Xiong, Silvio Savarese,
Abstract要約: Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
参考スコア（独自算出の注目度）: 100.5970757736845
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Natural language serves as a common and straightforward signal for humans to interact seamlessly with machines. Recognizing the importance of this interface, the machine learning community is investing considerable effort in generating data that is semantically coherent with textual instructions. While strides have been made in text-to-data generation spanning image editing, audio synthesis, video creation, and beyond, low-resource areas characterized by expensive annotations or complex data structures, such as molecules, motion dynamics, and time series, often lack textual labels. This deficiency impedes supervised learning, thereby constraining the application of advanced generative models for text-to-data tasks. In response to these challenges in the low-resource scenario, we propose Text2Data, a novel approach that utilizes unlabeled data to understand the underlying data distribution through an unsupervised diffusion model. Subsequently, it undergoes controllable finetuning via a novel constraint optimization-based learning objective that ensures controllability and effectively counteracts catastrophic forgetting. Comprehensive experiments demonstrate that Text2Data is able to achieve enhanced performance regarding controllability across various modalities, including molecules, motions and time series, when compared to existing baselines.
Abstract（参考訳）: 自然言語は、人間が機械とシームレスに対話する共通の信号として機能する。このインターフェースの重要性を認識して、機械学習コミュニティは、テキスト命令とセマンティックに一貫性のあるデータ生成に多大な努力を払っている。画像編集、音声合成、ビデオ作成などを含むテキスト・データ生成において進歩を遂げてきたが、高価なアノテーションや分子、モーションダイナミクス、時系列といった複雑なデータ構造を特徴とする低リソース領域は、しばしばテキストラベルを欠いている。この欠陥は教師付き学習を妨げるため、テキストからデータへのタスクに対する高度な生成モデルの適用が制限される。低リソースシナリオにおけるこれらの課題に対応するために、未ラベルデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。その後、新しい制約最適化に基づく学習目標を通じて制御可能な微調整を行い、制御性を確保し、破滅的な忘れを効果的に防止する。総合的な実験により、Text2Dataは、既存のベースラインと比較して、分子、モーション、時系列を含む様々なモードの制御性に関するパフォーマンスを向上できることを示した。

関連論文リスト

READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data [7.152603583363887]
BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。本稿では,強化学習に基づくテキスト生成と半教師付き対角学習アプローチをカプセル化する手法を提案する。提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成する。
論文参考訳（メタデータ） (2025-01-14T11:39:55Z)
Enhancing Text Generation in Joint NLG/NLU Learning Through Curriculum Learning, Semi-Supervised Training, and Advanced Optimization Techniques [0.0]
本研究では,NLG(Natural Language Generation)とNLU(Natural Language Understanding)の併用によってテキスト生成を改善する手法を開発した。データは、クリーニング、トークン化、ストーミング、ストップワード削除など、注釈付きデータセットの収集と前処理によって作成される。トランスフォーマーベースのエンコーダとデコーダ、長距離依存関係のキャプチャ、ソースターゲットシーケンスモデリングの改善。政策勾配手法による強化学習、半教師付きトレーニング、注意機構の改善、および異なる近似を用いて、モデルを微調整し、複雑な言語タスクを効果的に処理する。
論文参考訳（メタデータ） (2024-10-17T12:43:49Z)
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文参考訳（メタデータ） (2024-07-02T09:43:47Z)
Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文参考訳（メタデータ） (2024-05-24T13:29:12Z)
Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。最近のデータ拡張手法は文法的誤りの問題を無視することが多い。本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-16T16:52:07Z)
STA: Self-controlled Text Augmentation for Improving Text Classifications [2.9669250132689164]
自然言語処理(NLP)の分野では,テキスト拡張技術が数多く出現している。 STA(Self-Controlled Text Augmentation)のための最先端手法を提案する。提案手法は,生成したサンプルが元のテキストのセマンティックな内容を保持することを保証するための自己チェック手順を導入することで,生成過程を厳しく制御する。
論文参考訳（メタデータ） (2023-02-24T17:54:12Z)
Leveraging Key Information Modeling to Improve Less-Data Constrained News Headline Generation via Duality Fine-Tuning [12.443476695459553]
本稿では,鍵情報予測と見出し生成タスクの確率的双対性制約を定式化することにより,新しい双対性微調整法を提案する。提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築することができ、データ制約の少ない生成タスクに適している。提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-10-10T07:59:36Z)
Leveraging Natural Supervision for Language Representation Learning and Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-21T17:26:03Z)
Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文参考訳（メタデータ） (2022-06-06T16:11:58Z)
Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文参考訳（メタデータ） (2021-02-04T16:32:57Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。