Fugu-MT 論文翻訳(概要): Improved Synthetic Training for Reading Comprehension

論文の概要: Improved Synthetic Training for Reading Comprehension

arxiv url: http://arxiv.org/abs/2010.12776v1
Date: Sat, 24 Oct 2020 04:41:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 12:53:36.893146
Title: Improved Synthetic Training for Reading Comprehension
Title（参考訳）: 読書理解のための合成学習の改善
Authors: Yanda Chen (1), Md Arafat Sultan (2), Vittorio Castelli (2) ((1) Department of Computer Science, Columbia University, (2) IBM Research AI, T.J. Watson Research Center, New York, USA)
Abstract要約: 合成トレーニングデータには、品質を犠牲にして高可用性を実現するなど、ユニークな特性がある。提案した事前学習・知識蒸留手法は,既存の方法よりも大幅に改善されている。特に驚くべき発見として、合成蒸留が教師モデルを上回る結果をもたらすことがしばしばある。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically generated synthetic training examples have been shown to improve performance in machine reading comprehension (MRC). Compared to human annotated gold standard data, synthetic training data has unique properties, such as high availability at the possible expense of quality. In view of such differences, in this paper, we explore novel applications of synthetic examples to MRC. Our proposed pre-training and knowledge distillation strategies show significant improvements over existing methods. In a particularly surprising discovery, we observe that synthetic distillation often yields students that can outperform the teacher model.
Abstract（参考訳）: 機械読解(MRC)の性能向上のために自動生成合成トレーニング例が示されている。ヒトのアノテートされた金標準データと比較して、合成トレーニングデータには品質の犠牲となるような高可用性などのユニークな特性がある。このような相違から,本論文では合成サンプルのmrcへの応用について検討する。提案手法は,既存の方法よりも大幅に改善されている。特に驚くべき発見として、合成蒸留が教師モデルを上回る結果をもたらすことがしばしばある。

関連論文リスト

Provably Improving Generalization of Few-Shot Models with Synthetic Data [15.33628135372502]
本研究では,分散の相違が教師あり学習に与える影響を定量化する理論的枠組みを開発する。本稿では,データ分割とモデルトレーニングの両方を最適化するために,プロトタイプ学習を統合した理論に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-30T03:59:45Z)
Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation [0.7560883489000576]
画像合成におけるコントラスト学習を統合した新しいデータセット蒸留法を提案する。提案手法は,データセットのサイズが著しく制約された場合でも,より情報的かつ多様な合成サンプルを生成する。
論文参考訳（メタデータ） (2025-05-21T08:46:29Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis [55.65459867300319]
LLMは、主に高品質なデータセットの命令チューニングのために、自然言語命令に従う際、顕著な能力を示す。最近のアプローチでは、データ品質を改善するためにフィードバックが組み込まれているが、典型的にはサンプルレベルで運用され、個々のレスポンスに対してフィードバックを生成し、適用している。本稿では,厳密にキュレートされたシードデータから,高品質な参照サンプルに基づいてフィードバックを収集する新しい手法であるReference-Level Feedbackを提案する。
論文参考訳（メタデータ） (2025-02-06T21:29:00Z)
Multi-Armed Bandit Approach for Optimizing Training on Synthetic Data [7.603659241572307]
動的ユーザビリティ指標と組み合わせた UCB ベースのトレーニング手法を提案する。提案手法は,合成画像と対応する実・合成データセットからの低レベル・高レベル情報を統合する。提案手法は, ユーザビリティに基づいて, 合成画像のランク付けに有効な方法であることを示す。
論文参考訳（メタデータ） (2024-12-06T23:36:36Z)
Advancing Post-OCR Correction: A Comparative Study of Synthetic Data [3.997809845676911]
我々は,コンピュータビジョン特徴検出アルゴリズムを利用して,OCR後合成データ構築のためのグリフ類似性を計算するアルゴリズムを提案する。 ByT5のようなモデルでは、手動でアノテートするデータを必要とせずにキャラクタエラー率(CER)を大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-08-05T05:56:37Z)
Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文参考訳（メタデータ） (2024-07-22T10:31:07Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。データ拡張の可能性や構造化品種の導入など、その利点を強調します。テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文参考訳（メタデータ） (2023-10-11T19:16:09Z)
A Study on Improving Realism of Synthetic Data for Machine Learning [6.806559012493756]
この研究は、合成レンダリングを、ラベルのない実世界のデータで条件付けられた汎用データセット上でより現実的なスタイルに変換する合成から現実への生成モデルを訓練し、評価することを目的としている。
論文参考訳（メタデータ） (2023-04-24T21:41:54Z)
ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real Novel View Synthesis via Contrastive Learning [102.46382882098847]
まず,合成から現実への新規な視点合成における合成データの影響について検討した。本稿では,幾何制約を伴う多視点一貫した特徴を学習するために,幾何対応のコントラスト学習を導入することを提案する。提案手法は,PSNR,SSIM,LPIPSの点で,既存の一般化可能な新規ビュー合成手法よりも高い画質で精細な画像を描画することができる。
論文参考訳（メタデータ） (2023-03-20T12:06:14Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文参考訳（メタデータ） (2021-08-25T02:29:28Z)
Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。 G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文参考訳（メタデータ） (2020-04-24T06:12:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。