論文の概要: Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction
- arxiv url: http://arxiv.org/abs/2504.15573v1
- Date: Tue, 22 Apr 2025 04:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 22:27:35.072366
- Title: Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction
- Title(参考訳): Webレコンストラクションによるスクラッチからのインストラクション・チューニングデータ合成
- Authors: Yuxin Jiang, Yufei Wang, Chuhan Wu, Xinyi Dai, Yan Xu, Weinan Gan, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Wei Wang,
- Abstract要約: Web Restruction(WebR)は、Webドキュメントから直接高品質な命令チューニング(IT)データを合成するための、完全に自動化されたフレームワークである。
WebRが生成したデータセットは、4つのインストラクションフォローベンチマークで、最先端のベースラインを最大16.65%上回ります。
- 参考スコア(独自算出の注目度): 83.0216122783429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The improvement of LLMs' instruction-following capabilities depends critically on the availability of high-quality instruction-response pairs. While existing automatic data synthetic methods alleviate the burden of manual curation, they often rely heavily on either the quality of seed data or strong assumptions about the structure and content of web documents. To tackle these challenges, we propose Web Reconstruction (WebR), a fully automated framework for synthesizing high-quality instruction-tuning (IT) data directly from raw web documents with minimal assumptions. Leveraging the inherent diversity of raw web content, we conceptualize web reconstruction as an instruction-tuning data synthesis task via a novel dual-perspective paradigm--Web as Instruction and Web as Response--where each web document is designated as either an instruction or a response to trigger the reconstruction process. Comprehensive experiments show that datasets generated by WebR outperform state-of-the-art baselines by up to 16.65% across four instruction-following benchmarks. Notably, WebR demonstrates superior compatibility, data efficiency, and scalability, enabling enhanced domain adaptation with minimal effort. The data and code are publicly available at https://github.com/YJiangcm/WebR.
- Abstract(参考訳): LLMの命令追従能力の改善は、高品質な命令応答対の可用性に大きく依存する。
既存の自動データ合成手法は手作業によるキュレーションの負担を軽減するが、それらはシードデータの質や、Webドキュメントの構造や内容に関する強い仮定に大きく依存することが多い。
これらの課題に対処するために、我々は、最小限の仮定で生のWebドキュメントから直接高品質な命令チューニング(IT)データを合成するための完全に自動化されたフレームワークであるWeb Reconstruction (WebR)を提案する。
生のWebコンテンツに固有の多様性を生かし,Web の再構築を命令学習データ合成タスクとして概念化し,Web をインストラクションとして,Web をレスポンスとして,Web をインストラクションとして,Web をインストラクションとして,各 Web 文書をインストラクションあるいはリストラクションプロセスのトリガとして,それぞれ指定する。
総合的な実験により、WebRによって生成されたデータセットは、4つの命令追従ベンチマークで、最先端のベースラインを最大16.65%上回った。
特に、WebRは互換性、データ効率、スケーラビリティを向上し、最小限の労力で拡張されたドメイン適応を可能にします。
データとコードはhttps://github.com/YJiangcm/WebR.comで公開されている。
関連論文リスト
- Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードの両方で合成トレーニングデータを生成する新たな可能性を開いた。
これらの手法が,分類や質問応答などの低リソースなタスクをどのように強化するかを示す。
生成したテキストの事実的不正確さ、スタイリスティックなリアリズムの欠如、バイアス増幅のリスクといった課題に対処する。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts [0.8245350546263803]
グラフニューラルネットワーク(GNN)を用いた文書レイアウト生成のための新しい手法を提案する。
ドキュメント要素をグラフのノードとして表現することで、GNNは現実的で多様なドキュメントレイアウトを生成するように訓練される。
実験の結果,既存の拡張手法よりもグラフ拡張文書のレイアウトが優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-27T21:15:02Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions [17.96479268328824]
ユーザ生成コンテンツの現実的で大規模な合成データセット作成の実現可能性について検討する。
本稿では,議論スレッドのコンパクトな表現のアイデアに基づく多段階生成プロセスを提案する。
論文 参考訳(メタデータ) (2024-08-15T18:43:50Z) - Better Alignment with Instruction Back-and-Forth Translation [120.19298407990267]
本稿では,世界知識を基盤とした高品質な合成データを構築するために,バック・アンド・フォース・トランスフォーメーション(back-and-forth translation)という新たな手法を提案する。
ウェブコーパスから文書が与えられた場合、Liらによって提案されたバックトランスレーション手法を用いて合成命令を生成し、キュレートする。
我々は,Web上の情報多様性と量を活用しながら,効果的なアライメントに必要な応答の品質を確保しながら,両世界の長所を組み合わさっていることを発見した。
論文 参考訳(メタデータ) (2024-08-08T17:42:32Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Multi-modal Learning for WebAssembly Reverse Engineering [7.18491643197374]
We present WasmRev, a first multi-modal pre-trained language model for WebAssembly reverse engineering。
WasmRevは大規模マルチモーダルコーパス上で自己教師型学習を用いて事前訓練される。
WasmRevを3つの重要なリバースエンジニアリングタスク、タイプリカバリ、関数目的の識別、WebAssemblyの要約に微調整します。
論文 参考訳(メタデータ) (2024-04-04T03:03:38Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。