論文の概要: Paired by the Teacher: Turning Unpaired Data into High-Fidelity Pairs for Low-Resource Text Generation
- arxiv url: http://arxiv.org/abs/2509.25144v1
- Date: Mon, 29 Sep 2025 17:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.190825
- Title: Paired by the Teacher: Turning Unpaired Data into High-Fidelity Pairs for Low-Resource Text Generation
- Title(参考訳): 教師のペアリング: 未ペアのデータを低リソーステキスト生成のための高忠実なペアに変換する
- Authors: Yen-Ju Lu, Thomas Thebaud, Laureano Moro-Velazquez, Najim Dehak, Jesus Villalba,
- Abstract要約: Paired by the Teacher (PbT)は、人間のラベルや並列データなしで正確な入出力ペアを合成する2段階の教師学生パイプラインである。
我々は,5つのベンチマーク文書要約,対話要約,SAMSum,DialogSum,質問生成のPbTを評価する。
8Bの学生は、PbTデータのみを訓練し、70Bの教師生成コーパスで訓練されたモデルを上回った。
- 参考スコア(独自算出の注目度): 17.879274676067784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Paired by the Teacher (PbT), a two-stage teacher-student pipeline that synthesizes accurate input-output pairs without human labels or parallel data. In many low-resource natural language generation (NLG) scenarios, practitioners may have only raw outputs, like highlights, recaps, or questions, or only raw inputs, such as articles, dialogues, or paragraphs, but seldom both. This mismatch forces small models to learn from very few examples or rely on costly, broad-scope synthetic examples produced by large LLMs. PbT addresses this by asking a teacher LLM to compress each unpaired example into a concise intermediate representation (IR), and training a student to reconstruct inputs from IRs. This enables outputs to be paired with student-generated inputs, yielding high-quality synthetic data. We evaluate PbT on five benchmarks-document summarization (XSum, CNNDM), dialogue summarization (SAMSum, DialogSum), and question generation (SQuAD)-as well as an unpaired setting on SwitchBoard (paired with DialogSum summaries). An 8B student trained only on PbT data outperforms models trained on 70 B teacher-generated corpora and other unsupervised baselines, coming within 1.2 ROUGE-L of human-annotated pairs and closing 82% of the oracle gap at one-third the annotation cost of direct synthesis. Human evaluation on SwitchBoard further confirms that only PbT produces concise, faithful summaries aligned with the target style, highlighting its advantage of generating in-domain sources that avoid the mismatch, limiting direct synthesis.
- Abstract(参考訳): Paired by the Teacher (PbT)は、人間のラベルや並列データなしで正確な入出力ペアを合成する2段階の教師学生パイプラインである。
多くの低リソースの自然言語生成(NLG)シナリオでは、実践者はハイライト、リキャップ、質問のような生のアウトプットや、記事、対話、段落といった生のインプットしか持たないが、どちらもめったにない。
このミスマッチは、小さなモデルにごく少数の例から学習させたり、大型のLLMで作られた高価で広いスコープの合成例に頼らざるを得ない。
PbTは、教師のLLMに各未ペアの例を簡潔な中間表現(IR)に圧縮するよう依頼し、学生にIRからの入力を再構築するように訓練することでこの問題に対処する。
これにより、出力を学生が生成した入力とペアにすることができ、高品質な合成データが得られる。
ベンチマーク文書要約 (XSum, CNNDM), 対話要約 (SAMSum, DialogSum), 質問生成 (SQuAD) と, SwitchBoard (ダイアログサムサマリ) の未実装設定 (ダイアログサムサマリ) でPbTを評価する。
8Bの学生は、PbTデータのみを訓練し、70Bの教師生成コーパスやその他の教師なしベースラインで訓練されたモデルよりも優れており、人間の注釈付きペアの1.2 ROUGE-L以内で、直接合成のアノテーションコストの3分の1でオラクルギャップの82%を閉じている。
SwitchBoardの人間による評価では、PbTだけがターゲットスタイルに整合した簡潔で忠実な要約を生成し、ミスマッチを避け、直接合成を制限するドメイン内ソースを生成するという利点を強調している。
関連論文リスト
- Synthetic bootstrapped pretraining [52.92577542049469]
本稿では,SBP(Synthetic Bootstrapped Pretraining)について述べる。
SBPはまず、事前学習データセットから文書間の関係のモデルを学び、次にそれを利用して巨大な新しいコーパスを合成する。
SBPは高い繰り返しベースラインを継続的に改善し、オラクル上界で達成可能な性能改善のかなりの部分を提供する。
論文 参考訳(メタデータ) (2025-09-17T22:28:27Z) - NeuralNexus at BEA 2025 Shared Task: Retrieval-Augmented Prompting for Mistake Identification in AI Tutors [0.12499537119440242]
本稿では, BEA 2025共有タスクにおけるトラック1のミステイク同定システムについて述べる。
この課題は、教師の反応が学生の推論における誤りを正しく識別するかどうかを評価することである。
我々のシステムは意味的に類似した例を検索し、構造化されたプロンプトを構築し、生成可能な予測をスキーマ誘導解析する。
論文 参考訳(メタデータ) (2025-06-12T12:11:56Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Leverage Unlabeled Data for Abstractive Speech Summarization with
Self-Supervised Learning and Back-Summarization [6.465251961564605]
神経抽象的要約のための改良されたアプローチは、構築にコストがかかる大きな注釈付きコーパスを必要とする。
本稿では,ミーティング音声記録の自動書き起こしに基づいて,レポートが予測される,フランスの会議要約タスクを提案する。
本報告では,2つの評価セットの両アプローチのベースラインに対して,以前のベースラインと比較して大きな改善点を報告した。
論文 参考訳(メタデータ) (2020-07-30T08:22:47Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。