論文の概要: Organize the Web: Constructing Domains Enhances Pre-Training Data Curation
- arxiv url: http://arxiv.org/abs/2502.10341v1
- Date: Fri, 14 Feb 2025 18:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:06:51.703191
- Title: Organize the Web: Constructing Domains Enhances Pre-Training Data Curation
- Title(参考訳): Webを組織化する - 事前のトレーニングデータキュレーションを実現するドメインの構築
- Authors: Alexander Wettig, Kyle Lo, Sewon Min, Hannaneh Hajishirzi, Danqi Chen, Luca Soldaini,
- Abstract要約: トピックとフォーマットの両面からWebページを整理するフレームワークを開発する。
我々は,大規模な言語モデルからアノテーションを抽出して,事前学習データを自動的にアノテートし,効率的なキュレーションを行う。
我々の研究は、ドメインの構築と混合が、品質ベースのデータキュレーション手法の貴重な補完となることを実証している。
- 参考スコア(独自算出の注目度): 129.27104172458363
- License:
- Abstract: Modern language models are trained on large, unstructured datasets consisting of trillions of tokens and obtained by crawling the web. The unstructured nature makes it difficult to reason about their contents and develop systematic approaches to data curation. In this paper, we unpack monolithic web corpora by developing taxonomies of their contents and organizing them into domains. We introduce WebOrganizer, a framework for organizing web pages in terms of both their topic and format. Using these two complementary notions of domains, we automatically annotate pre-training data by distilling annotations from a large language model into efficient classifiers. This allows us to study how data from different domains should be mixed to improve models on downstream tasks, and we show that we can combine insights about effective topics and formats to further boost performance. We demonstrate that our domain mixing also improves existing methods that select data based on quality. Furthermore, we study and compare how quality-based methods will implicitly change the domain mixture. Overall, our work demonstrates that constructing and mixing domains provides a valuable complement to quality-based data curation methods, opening new avenues for effective and insightful pre-training data curation.
- Abstract(参考訳): 現代の言語モデルは、数十兆のトークンからなる大規模で非構造的なデータセットでトレーニングされ、Webをクロールすることで得られる。
構造化されていない性質は、その内容を推論し、データキュレーションの体系的なアプローチを開発することを困難にしている。
本稿では,モノリシックウェブコーパスを開梱し,その内容を分類し,ドメインに整理する。
我々はWebOrganizerを紹介した。WebOrganizerはWebページをトピックとフォーマットの両方で整理するフレームワークである。
これら2つの相補的なドメインの概念を用いて,大規模言語モデルからのアノテーションを効率的な分類器に蒸留することにより,事前学習データを自動的に注釈付けする。
これにより、ダウンストリームタスクのモデルを改善するために、異なるドメインからのデータを混在させる方法を研究することができ、効果的なトピックやフォーマットに関する洞察を組み合わせることで、パフォーマンスをさらに向上できることを示す。
ドメインミキシングは、品質に基づいてデータを選択する既存の方法も改善します。
さらに、品質に基づく手法がドメインの混在を暗黙的に変化させるかを検討し、比較する。
全体として、ドメインの構築と混合は、品質ベースのデータキュレーション手法の貴重な補完を提供し、効果的で洞察に富んだ事前学習データキュレーションのための新しい道を開くことを実証する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning [64.1745161657794]
ドメイン・インクリメンタル・ラーニング(ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、Domain-Incremental Learning、DIL)は、異なるドメインにまたがる新しい概念へのモデルの漸進的な適応を含む。
プレトレーニングモデルの最近の進歩は、DILの確かな基盤を提供する。
しかし、新しい概念を学ぶことは、しばしば、事前訓練された知識を破滅的に忘れてしまう。
本稿では,歴史的知識の統一と統合を図るために,デュアルコンソリデータティオン(ドゥクト)を提案する。
論文 参考訳(メタデータ) (2024-10-01T17:58:06Z) - Structure-aware Domain Knowledge Injection for Large Language Models [38.08691252042949]
StructTuningは、大規模言語モデル(LLM)をドメインスペシャリストに変換する方法論である。
従来の知識注入性能の100パーセントを達成しながら、トレーニングコーパスに必要なトレーニングコーパスをわずか5%削減します。
論文 参考訳(メタデータ) (2024-07-23T12:38:48Z) - Adapting to Distribution Shift by Visual Domain Prompt Generation [34.19066857066073]
いくつかのラベルのないデータを使って、テスト時にモデルを適応し、分散シフトに対処する。
ソースドメインから移行可能な知識を学ぶための知識銀行を構築します。
提案手法は,WILDSやDomainNetを含む5つの大規模ベンチマークにおいて,従来よりも優れている。
論文 参考訳(メタデータ) (2024-05-05T02:44:04Z) - RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization [36.973388673687815]
RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。
本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-15T07:50:15Z) - Adapting Large Language Models to Domains via Reading Comprehension [86.24451681746676]
ドメイン固有コーパスの事前学習が大規模言語モデルに与える影響について検討する。
生のコーパスでのトレーニングはドメイン知識でモデルを養うが、問合せ能力を大幅に損なう。
生コーパスを可読テキストに変換する簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:17:52Z) - Learning to Cluster under Domain Shift [20.00056591000625]
本研究では、ソースデータとターゲットデータの両方にアノテーションがない場合に、ソースからターゲットドメインに知識を転送する問題に対処する。
ディープクラスタリングに関する最近の研究から着想を得た私たちのアプローチは、複数のソースドメインから収集されたデータからの情報を活用する。
本手法は,少数のサンプルが存在する場合でも,関連する意味情報を自動的に発見できることを示す。
論文 参考訳(メタデータ) (2020-08-11T12:03:01Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z) - Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog [70.79442700890843]
本稿では,対象ドメインと各ドメインの関連性を自動的に活用する新しい動的核融合ネットワーク(DF-Net)を提案する。
トレーニングデータが少ないと、平均13.9%の事前最良モデルを上回り、転送可能性を示す。
論文 参考訳(メタデータ) (2020-04-23T08:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。