論文の概要: ENTP: Enhancing Low-Quality SFT Data via Neural-Symbolic Text Purge-Mix
- arxiv url: http://arxiv.org/abs/2510.23160v1
- Date: Mon, 27 Oct 2025 09:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.511562
- Title: ENTP: Enhancing Low-Quality SFT Data via Neural-Symbolic Text Purge-Mix
- Title(参考訳): ENTP:Neural-Symbolic Text Purge-Mixによる低品質SFTデータの強化
- Authors: Zile Yang, Ling Li, Na Di, Jinlong Pang, Yao Zhou, Hao Cheng, Bo Han, Jiaheng Wei,
- Abstract要約: Supervised Fine-Tuning (SFT) は、訓練済みの大規模言語モデル(LLM)を、高品質な命令応答ペアのサブセットでトレーニングすることで、ドメイン固有の命令に適応させる。
既存の品質優先のパラダイムは、廃棄された低品質データの貴重な信号を見落とし、不完全な品質フィルタに依存していることが多い。
我々は,低品質コーパスを記号的浄化と神経再建によって活性化するフレームワークであるENTP(Neural-symbolic Text Purge-Mix)を導入する。
- 参考スコア(独自算出の注目度): 31.617919238979013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) adapts pre-trained Large Language Models (LLMs) to domain-specific instructions by training on a carefully curated subset of high-quality instruction-response pairs, typically drawn from a larger dataset that often contains many low-quality or noisy samples. However, existing quality-first paradigms often overlook valuable signals in discarded low-quality data and rely on imperfect quality filters. We introduce ENTP (Enhancing low-quality SFT data via Neural-symbolic Text Purge-Mix), a framework that revitalizes low-quality corpora through symbolic purification and neural reconstruction. The symbolic module identifies and prunes noisy samples based on statistical priors, while the neural component synthesizes enriched instruction-response pairs by leveraging latent representations and model knowledge. This neural-symbolic synergy enhances data informativeness and diversity. Experiments show that ENTP-augmented datasets, constructed exclusively from low-quality data, outperform 13 established data-selection baselines across five instruction-following benchmarks, and even surpass fine-tuning on the full original dataset (approximately 300K examples). Our results highlight the untapped potential of low-quality data and underscore the importance of intelligent purification and synthesis for efficient instruction alignment.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、多くの低品質またはノイズの多いサンプルを含む大きなデータセットから引き出される、高品質の命令-応答ペアの慎重にキュレートされたサブセットをトレーニングすることで、事前訓練済みのLarge Language Model (LLM) をドメイン固有の命令に適応させる。
しかし、既存の品質優先のパラダイムは、廃棄された低品質データの貴重な信号を見落とし、不完全な品質フィルタに依存していることが多い。
我々は,低品質コーパスを記号的浄化と神経再建によって活性化するフレームワークであるENTP(Neural-symbolic Text Purge-Mix)を導入する。
シンボリックモジュールは、統計的事前情報に基づいてノイズのあるサンプルを識別し、プルーヌスする一方、ニューラルネットワークコンポーネントは潜在表現とモデル知識を活用して、豊富な命令応答対を合成する。
このニューラルシンボリック・シナジーは、データ情報性と多様性を高める。
実験では、低品質のデータのみから構築されたENTP拡張データセットが、5つの命令追従ベンチマークでデータ選択ベースラインを上回り、元のデータセット全体を微調整する(約300万例)ことも示されている。
その結果、低品質データの未解決の可能性を強調し、効率的な命令アライメントのためのインテリジェントな浄化と合成の重要性を浮き彫りにした。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。
LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。
鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文 参考訳(メタデータ) (2025-02-09T16:43:32Z) - Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis [54.15152681093108]
参照レベルフィードバック(Reference-Level Feedback)は、厳選された参照サンプルから望ましい特徴を抽出し、高品質な命令応答対の合成を導くパラダイムである。
実験により、参照レベルフィードバックは従来のサンプルレベルのフィードバック手法を一貫して上回り、モデルアーキテクチャ全体にわたって一般化し、高品質で多様なデータを低コストで生成することを示した。
論文 参考訳(メタデータ) (2025-02-06T21:29:00Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [23.098551349745815]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
本稿では,非教師なし文の埋め込みを改善するために,ガウス型勾配支援コントラスト文埋め込み(GCSE)モデルを提案する。
実験結果から,本手法は意味的テキスト類似性タスクにおける最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - FuseGen: PLM Fusion for Data-generation based Zero-shot Learning [18.51772808242954]
FuseGenは、新しいデータ生成ベースのゼロショット学習フレームワークである。
合成データセットからのサブセット選択のための新しい基準を導入する。
選択されたサブセットは、各PLMに対してコンテキスト内フィードバックを提供し、データセットの品質を向上する。
論文 参考訳(メタデータ) (2024-06-18T11:55:05Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。