論文の概要: Entropy-Based Data Selection for Language Models
- arxiv url: http://arxiv.org/abs/2602.17465v1
- Date: Thu, 19 Feb 2026 15:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.129842
- Title: Entropy-Based Data Selection for Language Models
- Title(参考訳): エントロピーに基づく言語モデルのためのデータ選択
- Authors: Hongming Li, Yang Liu, Chao Huang,
- Abstract要約: 現代の言語モデル(LM)は、計算資源とデータ資源という2つの重要なリソースを必要としている。
データ選択技術は、微調整LMに必要なトレーニングデータの量を効果的に削減することができる。
本研究では,効率的なデータ選択のためのEntropy-based Unsupervised Data Selection (EUDS) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.922021171941216
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern language models (LMs) increasingly require two critical resources: computational resources and data resources. Data selection techniques can effectively reduce the amount of training data required for fine-tuning LMs. However, their effectiveness is closely related to computational resources, which always require a high compute budget. Owing to the resource limitations in practical fine-tuning scenario, we systematically reveal the relationship between data selection and uncertainty estimation of selected data. Although large language models (LLMs) exhibit exceptional capabilities in language understanding and generation, which provide new ways to alleviate data scarcity, evaluating data usability remains a challenging task. This makes efficient data selection indispensable. To mitigate these issues, we propose Entropy-Based Unsupervised Data Selection (EUDS) framework. Empirical experiments on sentiment analysis (SA), topic classification (Topic-CLS), and question answering (Q&A) tasks validate its effectiveness. EUDS establishes a computationally efficient data-filtering mechanism. Theoretical analysis and experimental results confirm the effectiveness of our approach. EUDS significantly reduces computational costs and improves training time efficiency with less data requirement. This provides an innovative solution for the efficient fine-tuning of LMs in the compute-constrained scenarios.
- Abstract(参考訳): 現代の言語モデル(LM)は、計算資源とデータ資源という2つの重要なリソースを必要としている。
データ選択技術は、微調整LMに必要なトレーニングデータの量を効果的に削減することができる。
しかし、その有効性は常に高い計算予算を必要とする計算資源と密接に関連している。
実際の微調整シナリオにおける資源制限のため,選択したデータの不確実性評価とデータ選択の関係を系統的に明らかにする。
大きな言語モデル(LLM)は、言語理解と生成において例外的な能力を示し、データの不足を緩和する新しい方法を提供するが、データのユーザビリティを評価することは難しい課題である。
これにより、効率的なデータ選択が不可欠である。
これらの問題を緩和するために,Entropy-based Unsupervised Data Selection (EUDS) フレームワークを提案する。
感情分析(SA)、トピック分類(Topic-CLS)、質問応答(Q&A)タスクに関する実証実験は、その有効性を検証する。
EUDSは計算効率のよいデータフィルタリング機構を確立する。
理論的解析と実験により,本手法の有効性が確認された。
EUDSは計算コストを大幅に削減し、データ要求の少ないトレーニング時間効率を向上させる。
これは、計算制約のあるシナリオにおけるLMの効率的な微調整のための革新的なソリューションを提供する。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。
計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - Applying Fine-Tuned LLMs for Reducing Data Needs in Load Profile Analysis [9.679453060210978]
本稿では、負荷プロファイル解析におけるデータ要求を最小限に抑えるために、LLM(en: Fine-tuned Large Language Models)を利用する新しい手法を提案する。
2段階の微調整戦略が提案され、データ復元作業の欠如に対して事前訓練されたLLMを適用する。
BERT-PIN などの最先端モデルに匹敵する性能を達成し,その精度向上のための微調整モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-02T23:18:11Z) - A Context-Aware Approach for Enhancing Data Imputation with Pre-trained Language Models [0.18416014644193068]
CRILMは、事前訓練された言語モデルを使用して、不足する値に対してコンテキストに関連のある記述子を作成する。
本評価は,MCAR,MAR,MNARシナリオにおけるCRILMの優れた性能とロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。