論文の概要: Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models
- arxiv url: http://arxiv.org/abs/2408.02085v2
- Date: Tue, 6 Aug 2024 03:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 13:18:40.445348
- Title: Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models
- Title(参考訳): データ津波の力を解き明かす:言語モデルの学習指導のためのデータアセスメントと選択に関する包括的調査
- Authors: Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun,
- Abstract要約: インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
自然言語処理(NLP)とディープラーニングの分野において,データアセスメントと選択手法が提案されている。
本稿では,データアセスメントと選択に関する既存の文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
- 参考スコア(独自算出の注目度): 33.488331159912136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering.
- Abstract(参考訳): インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
膨大な量のオープンな命令データセットにもかかわらず、既存のすべての命令に対してLSMを鼻で訓練することは、最適で実用的ではないかもしれない。
最も有用なデータポイントを特定するために、自然言語処理(NLP)とディープラーニングの分野において、データアセスメントと選択法が提案されている。
しかし、命令チューニングのコンテキスト下では、どのようなデータ評価指標を使用できるか、どのように選択メカニズムに統合できるかについて、知識のギャップがまだ残っている。
このギャップを埋めるため,従来のデータアセスメントと選択に関する文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
我々は、すべての適用可能な手法を、統一されたきめ細かい分類法が構成されている品質ベース、多様性ベース、重要ベースに体系的に分類する。
各カテゴリについて、関連する研究の展望を説明するために、代表的手法を詳述する。
また, 最新の手法の比較を, 公式報告された結果に基づいて実施し, その限界について詳細な議論を行う。
最後に,オープンな課題を要約し,今後の研究の道筋を提案する。
関連コンテンツはすべてhttps://github.com/yuleiqin/fantastic-data-engineering.comで公開されている。
関連論文リスト
- Evaluating LLM Prompts for Data Augmentation in Multi-label Classification of Ecological Texts [1.565361244756411]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて重要な役割を果たす。
本研究では,ロシアのソーシャルメディアにおけるグリーンプラクティスの言及を検出するために,プロンプトベースのデータ拡張を適用した。
論文 参考訳(メタデータ) (2024-11-22T12:37:41Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Exploring Large Language Models for Feature Selection: A Data-centric Perspective [17.99621520553622]
大規模言語モデル(LLM)は様々なドメインに影響を与え、例外的な少数ショットとゼロショットの学習機能を活用している。
我々は,データ中心の観点からLLMに基づく特徴選択手法を探求し,理解することを目指している。
本研究は,テキストベースの特徴選択手法の有効性とロバスト性を強調し,実世界の医療応用を用いてその可能性を示す。
論文 参考訳(メタデータ) (2024-08-21T22:35:19Z) - Recent Advances in Multi-Choice Machine Reading Comprehension: A Survey on Methods and Datasets [19.021200954913482]
この分析は、30の既存のクローゼスタイルとマルチチョイスMCCベンチマークデータセットに展開されている。
本稿では,最近の手法を細調整法とプロンプト調整法に分類する。
論文 参考訳(メタデータ) (2024-08-04T18:57:21Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。
この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。