論文の概要: Transplant Then Regenerate: A New Paradigm for Text Data Augmentation
- arxiv url: http://arxiv.org/abs/2508.14723v1
- Date: Wed, 20 Aug 2025 14:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.474199
- Title: Transplant Then Regenerate: A New Paradigm for Text Data Augmentation
- Title(参考訳): Transplant Then Regenerate: テキストデータ拡張のための新しいパラダイム
- Authors: Guangzhan Wang, Hongyu Zhang, Beijun Shen, Xiaodong Gu,
- Abstract要約: 大規模言語モデル(LLM)は、その"知識の出現"能力によって、テキスト拡張を強化している。
LLMを利用した新しいテキスト拡張パラダイムであるLMTransplantを提案する。
我々は,LMTransplantをテキスト関連タスク間で評価し,既存のテキスト拡張手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 12.72514263015983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation is a critical technique in deep learning. Traditional methods like Back-translation typically focus on lexical-level rephrasing, which primarily produces variations with the same semantics. While large language models (LLMs) have enhanced text augmentation by their "knowledge emergence" capability, controlling the style and structure of these outputs remains challenging and requires meticulous prompt engineering. In this paper, we propose LMTransplant, a novel text augmentation paradigm leveraging LLMs. The core idea of LMTransplant is transplant-then-regenerate: incorporating seed text into a context expanded by LLM, and asking the LLM to regenerate a variant based on the expanded context. This strategy allows the model to create more diverse and creative content-level variants by fully leveraging the knowledge embedded in LLMs, while preserving the core attributes of the original text. We evaluate LMTransplant across various text-related tasks, demonstrating its superior performance over existing text augmentation methods. Moreover, LMTransplant demonstrates exceptional scalability as the size of augmented data grows.
- Abstract(参考訳): データ拡張はディープラーニングにおいて重要なテクニックです。
バックトランスレーションのような伝統的な手法は、主に同じ意味論を持つバリエーションを生み出す語彙レベルの言い換えに重点を置いている。
大規模言語モデル(LLM)は、その"知識の出現"能力によってテキストの増強を図っているが、これらの出力のスタイルと構造を制御することは依然として困難であり、巧妙な迅速なエンジニアリングを必要としている。
本稿では,LLMを利用した新たなテキスト拡張パラダイムであるLMTransplantを提案する。
LLMによって拡張されたコンテキストにシードテキストを組み込んで、拡張されたコンテキストに基づいてLLMに変種を再生するように要求する。
この戦略により、モデルはLLMに埋め込まれた知識を十分に活用し、元のテキストのコア属性を保存し、より多様で創造的なコンテンツレベルの変種を作成することができる。
我々は,LMTransplantをテキスト関連タスク間で評価し,既存のテキスト拡張手法よりも優れた性能を示す。
さらに、LMTransplantは、拡張データのサイズが大きくなるにつれて、例外的なスケーラビリティを示す。
関連論文リスト
- GEM: Empowering LLM for both Embedding Generation and Language Understanding [11.081595808236239]
高品質なテキスト埋め込みを生成するために,GEM(Generative Embedding large Language Model)を提案する。
本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。
提案手法は,従来のNLP性能を維持しつつ,最先端のテキスト埋め込み機能でLCMを活用できることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T18:02:07Z) - Ensemble Learning for Large Language Models in Text and Code Generation: A Survey [6.041894045506043]
本稿では,理解を深め,さらなる研究を奨励し,テキストおよびコード生成における実践的実装を促進するための,新たなアンサンブルアプローチについてレビューする。
大規模言語モデルは、重み付け、知識融合、エキスパートの混合、出力アンサンブル、ルーティング、カスケードの7つの主要な方法に分類する。
この結果から,多様性表現の改善,出力品質の向上,アプリケーション柔軟性の向上など,重要なメリットが浮かび上がっている。
論文 参考訳(メタデータ) (2025-03-13T18:50:57Z) - Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
分散テキスト生成(ATG)は,RAGシステムにおける信頼性と妥当性を高めるために提案される。
本稿では,参照と回答を段階的に交互に生成する詳細なATG手法であるReClaimを提案する。
広範囲な実験により,ReClaimの有効性が検証され,90%の引用精度が得られた。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。