論文の概要: ReaderLM-v2: Small Language Model for HTML to Markdown and JSON
- arxiv url: http://arxiv.org/abs/2503.01151v1
- Date: Mon, 03 Mar 2025 03:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:48.699727
- Title: ReaderLM-v2: Small Language Model for HTML to Markdown and JSON
- Title(参考訳): ReaderLM-v2: HTMLのマークダウンとJSONのための小さな言語モデル
- Authors: Feng Wang, Zesheng Shi, Bo Wang, Nan Wang, Han Xiao,
- Abstract要約: 本稿では、効率的なWebコンテンツ抽出のために設計された15億個のパラメータ言語モデルであるReaderLM-v2を提案する。
私たちのモデルは、ドキュメントを512Kまでの乱雑なHTMLを、高い精度でクリーンまたはマークダウンフォーマットに処理します。
- 参考スコア(独自算出の注目度): 7.9969849952515775
- License:
- Abstract: We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The model's effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20\% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements.
- Abstract(参考訳): 本稿では、効率的なWebコンテンツ抽出のために設計された15億個のパラメータ言語モデルであるReaderLM-v2を提案する。
私たちのモデルはドキュメントを最大512Kのトークンで処理し、乱雑なHTMLをクリーンなMarkdownやJSONフォーマットに高精度で変換します。
モデルの有効性は,(1)高品質で多様なトレーニングデータを生成する3段階データ合成パイプライン,(2)連続事前学習と多目的最適化を組み合わせた統合トレーニングフレームワーク,の2点から得られた。
集中的な評価により、ReaderLM-v2はGPT-4o-2024-08-06や他の大規模モデルよりも15-20\%高い性能を示し、特に100Kトークンを超える文書で優れているが、計算要求は大幅に低い。
関連論文リスト
- HAND: Hierarchical Attention Network for Multi-Scale Handwritten Document Recognition and Layout Analysis [21.25786478579275]
手書き文書認識は、コンピュータビジョンにおいて最も難しいタスクの1つである。
伝統的に、この問題は手書き文字認識とレイアウト解析という2つの別々のタスクとしてアプローチされてきた。
本稿では,テキスト認識とレイアウト解析を同時に行うための,新しいエンドツーエンドおよびセグメンテーションフリーアーキテクチャであるHANDを紹介する。
論文 参考訳(メタデータ) (2024-12-25T20:36:29Z) - DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models [78.51470038301436]
本稿では,データ評価,タグ付け,編集を通じて事前学習コーパスを洗練させるデータエンジニアリング手法であるDecorateLMを紹介する。
次に、DecorateLMを適用して、トレーニングコーパスの100億のトークンを強化し、さらに12億のパラメータLLMのさらなるトレーニングのために、高品質と多様性を実証する45億のトークンを選択します。
その結果、このような高品質なデータを利用することで、モデルの性能を大幅に向上させることができることが示され、事前学習コーパスの品質を高めるための強力なアプローチが示される。
論文 参考訳(メタデータ) (2024-10-08T02:42:56Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora
with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。
RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文 参考訳(メタデータ) (2023-06-01T20:03:56Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - The GINCO Training Dataset for Web Genre Identification of Documents Out
in the Wild [0.0]
データセットは、機械翻訳コンテンツ、エンコーディングエラー、ひとつのドキュメントに表示される複数のコンテンツなど、Webベースのデータに関連するさまざまな課題で構成されている。
最初の機械学習実験では、(1)トランスフォーマー前のモデルでは0.22程度のマクロF1メトリクスで現象をモデル化することができず、(2)トランスフォーマーベースのモデルは0.58のスコアを獲得し、(2)マルチリンガルトランスフォーマーモデルは、標準NLPタスクのマルチリンガルモデルよりも優れていることが証明されたモノリンガルモデルと同様にタスク上でも動作することを示した。
論文 参考訳(メタデータ) (2022-01-11T09:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。