論文の概要: Investigating Public Fine-Tuning Datasets: A Complex Review of Current Practices from a Construction Perspective
- arxiv url: http://arxiv.org/abs/2407.08475v1
- Date: Thu, 11 Jul 2024 13:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:29:40.194459
- Title: Investigating Public Fine-Tuning Datasets: A Complex Review of Current Practices from a Construction Perspective
- Title(参考訳): 公共ファインチューニングデータセットの調査:建設の視点から
- Authors: Runyuan Ma, Wei Li, Fukai Shang,
- Abstract要約: 本稿では、データ構築の観点から、現在の公開微調整データセットをレビューする。
このレビューでは、進化と分類の2つの側面から、パブリックな微調整データセットの概要を述べる。
- 参考スコア(独自算出の注目度): 2.12587313410587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of the large model domain, research related to fine-tuning has concurrently seen significant advancement, given that fine-tuning is a constituent part of the training process for large-scale models. Data engineering plays a fundamental role in the training process of models, which includes data infrastructure, data processing, etc. Data during fine-tuning likewise forms the base for large models. In order to embrace the power and explore new possibilities of fine-tuning datasets, this paper reviews current public fine-tuning datasets from the perspective of data construction. An overview of public fine-tuning datasets from two sides: evolution and taxonomy, is provided in this review, aiming to chart the development trajectory. Construction techniques and methods for public fine-tuning datasets of Large Language Models (LLMs), including data generation and data augmentation among others, are detailed. This elaboration follows the aforementioned taxonomy, specifically across demonstration, comparison, and generalist categories. Additionally, a category tree of data generation techniques has been abstracted in our review to assist researchers in gaining a deeper understanding of fine-tuning datasets from the construction dimension. Our review also summarizes the construction features in different data preparation phases of current practices in this field, aiming to provide a comprehensive overview and inform future research. Fine-tuning dataset practices, encompassing various data modalities, are also discussed from a construction perspective in our review. Towards the end of the article, we offer insights and considerations regarding the future construction and developments of fine-tuning datasets.
- Abstract(参考訳): 大規模なモデルドメインの急速な発展に伴い、ファインチューニングに関する研究は大規模モデルのトレーニングプロセスにおいて、ファインチューニングが重要な部分を占めることを考えると、同時に顕著な進展が見られた。
データエンジニアリングは、データインフラストラクチャやデータ処理などを含むモデルのトレーニングプロセスにおいて、基本的な役割を果たす。
微調整中のデータも同様に、大きなモデルの基盤を形成する。
本論文は、データ構築の観点から、現在公開されている微調整データセットのパワーを取り入れ、新たな可能性を探るため、現在の微調整データセットをレビューする。
進化と分類という2つの側面から得られた公的な微調整データセットの概要を概説し,開発軌跡のグラフ化をめざした。
大規模言語モデル(LLM)の公開微調整データセットの構築手法と手法について詳述する。
この実験は前述の分類学、特に実演、比較、一般論のカテゴリーを踏襲している。
さらに,データ生成手法のカテゴリツリーを概説し,構築次元から微調整データセットの理解を深める支援を行った。
また,本分野における現在の実践の異なるデータ準備段階における構築の特徴を概観し,今後の研究の概観と情報提供をめざして概説した。
各種データモダリティを包含した微調整データセットの実践についても,本レビューで構築の観点から論じる。
この記事の終わりに向けて、我々は微調整データセットの構築と開発について、洞察と考察を行う。
関連論文リスト
- Training Data for Large Language Model [2.1178416840822027]
ChatGPTは、事前学習コーパスのパラメータとスケールの点で、以前のモデルを上回った。
ChatGPTは、大量の高品質な人間注釈付きデータを微調整することで、革命的なパフォーマンス向上を実現した。
本稿では,大規模言語モデルの事前学習と微調整の現状を概説する。
論文 参考訳(メタデータ) (2024-11-12T11:09:58Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Visual Analytics for Fine-grained Text Classification Models and Datasets [3.6873612681664016]
SemLaは、きめ細かいテキスト分類に適した、新しいビジュアル分析システムである。
本稿では,SemLaにおける反復設計研究と結果のイノベーションについて述べる。
論文 参考訳(メタデータ) (2024-03-21T17:26:28Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Better, Not Just More: Data-Centric Machine Learning for Earth Observation [16.729827218159038]
モデル中心の視点から補完的なデータ中心の視点へのシフトは、より正確性、一般化能力、そしてエンドユーザーアプリケーションへの影響を高めるために必要である。
本研究は、地理空間データに対する自動データ中心学習手法の正確な分類と概要と、その定義を提示する。
論文 参考訳(メタデータ) (2023-12-08T19:24:05Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - A Comprehensive Survey on Generative Diffusion Models for Structured
Data [0.0]
生成拡散モデルは 深層生成モデルにおいて 急激なパラダイムシフトを達成しました
構造化データは、ディープラーニング研究コミュニティから比較的限られた注目を集めている。
このレビューは、構造化データの生成拡散モデルの発展を促進する研究コミュニティの触媒となる。
論文 参考訳(メタデータ) (2023-06-07T04:26:41Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Controllable Data Generation by Deep Learning: A Review [22.582082771890974]
制御可能な深層データ生成は有望な研究領域であり、一般に制御可能な深部データ生成として知られている。
本稿では、制御可能な深層データ生成のエキサイティングな応用を紹介し、既存の研究を実験的に分析し比較する。
論文 参考訳(メタデータ) (2022-07-19T20:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。