論文の概要: Enhancing LLMs via High-Knowledge Data Selection
- arxiv url: http://arxiv.org/abs/2505.14070v1
- Date: Tue, 20 May 2025 08:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.882498
- Title: Enhancing LLMs via High-Knowledge Data Selection
- Title(参考訳): 高知識データ選択によるLCMの強化
- Authors: Feiyu Duan, Xuemiao Zhang, Sirui Wang, Haoran Que, Yuqi Liu, Wenge Rong, Xunliang Cai,
- Abstract要約: 大規模言語モデル(LLM)の性能は、そのトレーニングデータの品質と本質的に関連している。
我々は,知識の次元から高品質なデータを選択するための,新しい,勾配のないハイノウレッジ・スコラー(HKS)を提案する。
我々は、高知識バイリンガルデータセット上でモデルを訓練し、実験結果から、知識集約的および一般理解的なタスクにおいて、スコアラーがモデルの性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 13.769398867340296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of Large Language Models (LLMs) is intrinsically linked to the quality of its training data. Although several studies have proposed methods for high-quality data selection, they do not consider the importance of knowledge richness in text corpora. In this paper, we propose a novel and gradient-free High-Knowledge Scorer (HKS) to select high-quality data from the dimension of knowledge, to alleviate the problem of knowledge scarcity in the pre-trained corpus. We propose a comprehensive multi-domain knowledge element pool and introduce knowledge density and coverage as metrics to assess the knowledge content of the text. Based on this, we propose a comprehensive knowledge scorer to select data with intensive knowledge, which can also be utilized for domain-specific high-knowledge data selection by restricting knowledge elements to the specific domain. We train models on a high-knowledge bilingual dataset, and experimental results demonstrate that our scorer improves the model's performance in knowledge-intensive and general comprehension tasks, and is effective in enhancing both the generic and domain-specific capabilities of the model.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は、そのトレーニングデータの品質と本質的に関連している。
いくつかの研究で高品質なデータ選択法が提案されているが、テキストコーパスにおける知識豊かさの重要性は考慮されていない。
本稿では,学習前コーパスにおける知識不足の問題を緩和するために,知識の次元から高品質なデータを選択するための,新しい,勾配のないハイノウレッジ・スコーラを提案する。
テキストの知識内容を評価するために,包括的多領域知識要素プールを提案し,知識密度とカバレッジを指標として導入する。
そこで本研究では,知識要素を特定の領域に限定することで,ドメイン固有の高知識データ選択にも活用可能な,集中的な知識を持つデータを選択するための総合的知識スコアラを提案する。
我々は、高知識バイリンガルデータセット上でモデルを訓練し、実験結果から、知識集約型および一般理解型タスクにおいて、スコアラがモデルの性能を改善し、モデルの汎用性とドメイン固有性の向上に有効であることを実証した。
関連論文リスト
- LEKA:LLM-Enhanced Knowledge Augmentation [24.552995956148145]
人間は類推学習と知識伝達に優れる。
モデルは受動的に取得し、知識から積極的にアクセスし、学習するようになる。
知識伝達のための知識拡張手法LEKAを開発した。
論文 参考訳(メタデータ) (2025-01-29T17:44:57Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
本稿では,効率的なモデル適応によりRAGシステムを強化する自己教師型フレームワークKBAlignを提案する。
私たちのキーとなる洞察は、2つの革新的なメカニズムを通じて、モデルの本質的な能力を知識の整合性に活用することです。
KBAlign は GPT-4 による適応によって得られる性能向上の90%を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z) - Knowledge Card: Filling LLMs' Knowledge Gaps with Plug-in Specialized Language Models [46.079902719883414]
我々は,新しい事実と関連する知識を汎用言語モデルにプラグインするモジュール型フレームワークであるKnowledge Cardを提案する。
まず、特定のドメインやソースからコーパスで訓練された特殊な言語モデルであるナレッジカードを紹介します。
次に,知識カードが生成した文書中の情報を動的に選択・保持する3つのコンテンツセレクタを提案する。
論文 参考訳(メタデータ) (2023-05-17T05:25:27Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Informed Learning by Wide Neural Networks: Convergence, Generalization
and Sampling Complexity [27.84415856657607]
ドメイン知識が情報学習のパフォーマンスにどのような影響を及ぼすか、なぜ研究する。
本稿では,知識の利点をうまく活用し,ラベルと知識の不完全性のバランスをとるための,汎用的な情報教育目標を提案する。
論文 参考訳(メタデータ) (2022-07-02T06:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。