論文の概要: Exploring Multilingual Text Data Distillation
- arxiv url: http://arxiv.org/abs/2308.04982v1
- Date: Wed, 9 Aug 2023 14:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 13:24:30.393639
- Title: Exploring Multilingual Text Data Distillation
- Title(参考訳): 多言語テキストデータ蒸留の探索
- Authors: Shivam Sahni, Harsh Patel
- Abstract要約: 言語モデルに基づく学習手法を用いて,多言語テキスト分類データセットのためのデータ蒸留手法を提案する。
我々は,分類強度とアーキテクチャ間の一般化の観点から,それらの性能を解析する実験を行う。
提案手法は, テキストデータ蒸留領域におけるクロスアーキテクチャの一般化を促進するため, 既存の手法に基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of deep learning, large datasets and complex models have become
common, requiring significant computing power. To address this, data
distillation has emerged as a technique to quickly train models with lower
memory and time requirements. However, data distillation on text-based datasets
hasn't been explored much because of the challenges rising due to its discrete
nature. Additionally, existing dataset distillation methods often struggle to
generalize to new architectures. In the paper, we propose several data
distillation techniques for multilingual text classification datasets using
language-model-based learning methods. We conduct experiments to analyze their
performance in terms of classification strength, and cross-architecture
generalization. Furthermore, we investigate the language-specific fairness of
the data summaries generated by these methods. Our approach builds upon
existing techniques, enhancing cross-architecture generalization in the text
data distillation domain.
- Abstract(参考訳): ディープラーニングの台頭に伴い、大規模なデータセットと複雑なモデルが一般化し、かなりの計算能力を必要としている。
これを解決するために、データ蒸留は、メモリと時間要件の低いモデルを迅速に訓練する技術として登場した。
しかし、テキストベースのデータセット上のデータ蒸留は、その離散的な性質のために困難が増しているため、あまり調査されていない。
さらに、既存のデータセット蒸留法は、しばしば新しいアーキテクチャに一般化するのに苦労する。
本稿では,言語モデルに基づく学習手法を用いた多言語テキスト分類データセットのためのデータ蒸留手法を提案する。
我々は,それらの性能を分類強度,構造間一般化の観点から分析する実験を行った。
さらに,これらの手法により生成されたデータ要約の言語固有の公平性について検討する。
我々のアプローチは既存の技術に基づいており、テキストデータ蒸留領域におけるクロスアーキテクチャの一般化を強化している。
関連論文リスト
- Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - Generative Dataset Distillation: Balancing Global Structure and Local Details [49.20086587208214]
グローバルな構造と局所的な詳細のバランスを考慮に入れた新しいデータセット蒸留法を提案する。
本手法では, 条件付き生成逆数ネットワークを用いて蒸留したデータセットを生成する。
論文 参考訳(メタデータ) (2024-04-26T23:46:10Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。