論文の概要: A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training
- arxiv url: http://arxiv.org/abs/2407.07630v1
- Date: Wed, 10 Jul 2024 13:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 16:32:05.857946
- Title: A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training
- Title(参考訳): 大規模言語モデルにおける大規模Webマイニングコーパスの試行
- Authors: Michał Perełkiewicz, Rafał Poświata,
- Abstract要約: このレビューでは、ノイズ(不適切な情報や誤解を招く情報)、コンテンツの重複、品質の低い情報や誤った情報の存在、バイアス、機密情報や個人情報をウェブマイニングコーパスに含めることなど、この分野における重要な課題を明らかにしている。
データクリーニング、前処理、バイアス検出、緩和のための現在の手法を検討することで、既存のアプローチのギャップを強調し、今後の研究の方向性を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents a comprehensive review of the challenges associated with using massive web-mined corpora for the pre-training of large language models (LLMs). This review identifies key challenges in this domain, including challenges such as noise (irrelevant or misleading information), duplication of content, the presence of low-quality or incorrect information, biases, and the inclusion of sensitive or personal information in web-mined corpora. Addressing these issues is crucial for the development of accurate, reliable, and ethically responsible language models. Through an examination of current methodologies for data cleaning, pre-processing, bias detection and mitigation, we highlight the gaps in existing approaches and suggest directions for future research. Our discussion aims to catalyze advancements in developing more sophisticated and ethically responsible LLMs.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の事前学習に大規模ウェブマイニングコーパスを使用する際の課題について概説する。
このレビューでは、ノイズ(不適切な情報や誤解を招く情報)、コンテンツの重複、品質の低い情報や誤った情報の存在、バイアス、機密情報や個人情報をウェブマイニングコーパスに含めることなど、この分野における重要な課題を明らかにしている。
これらの問題に対処することは、正確で信頼性があり倫理的に責任を負う言語モデルの開発に不可欠である。
データクリーニング、前処理、バイアス検出、緩和のための現在の手法を検討することで、既存のアプローチのギャップを強調し、今後の研究の方向性を提案する。
我々の議論は、より洗練され倫理的に責任を負うLLMの開発における進歩を触媒することを目的としている。
関連論文リスト
- Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Machine Unlearning for Traditional Models and Large Language Models: A Short Survey [11.539080008361662]
機械学習は、データを削除し、ユーザーの要求に応じてモデルへの影響を減らすことを目的としている。
本稿では,従来のモデルとLarge Language Models(LLMs)の両方の非学習を分類し,検討する。
論文 参考訳(メタデータ) (2024-04-01T16:08:18Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Large Language Models for Forecasting and Anomaly Detection: A
Systematic Literature Review [10.325003320290547]
本稿では,Large Language Models (LLMs) の予測・異常検出への応用について概説する。
LLMは、パターンを特定し、将来の事象を予測し、様々な領域にまたがる異常な振る舞いを検出するために、広範囲なデータセットを解析し分析する大きな可能性を示してきた。
このレビューでは、膨大な歴史的データセットへの依存、さまざまな文脈における一般化可能性の問題、モデル幻覚の現象など、より広範な採用と有効性を阻害するいくつかの重要な課題を取り上げている。
論文 参考訳(メタデータ) (2024-02-15T22:43:02Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Context Matters: Data-Efficient Augmentation of Large Language Models
for Scientific Applications [15.893290942177112]
GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。
一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。
本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
論文 参考訳(メタデータ) (2023-12-12T08:43:20Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Out-of-Distribution Generalization in Text Classification: Past,
Present, and Future [30.581612475530974]
自然言語処理(NLP)における機械学習(ML)システムは、アウト・オブ・ディストリビューション(OOD)データへの一般化において重大な課題に直面している。
このことは、NLPモデルの堅牢性とその高い精度に関する重要な疑問を提起する。
本稿では,近年の進歩,方法,評価について概観する。
論文 参考訳(メタデータ) (2023-05-23T14:26:11Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - Learnware: Small Models Do Big [69.88234743773113]
自然言語処理やコンピュータビジョンの応用で目覚ましい成果を上げてきた、一般的なビッグモデルパラダイムは、これらの問題にまだ対応していないが、炭素排出量の深刻な源となっている。
この記事では、マシンラーニングモデルをスクラッチから構築する必要がないようにするための学習ソフトウェアパラダイムの概要を紹介します。
論文 参考訳(メタデータ) (2022-10-07T15:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。