論文の概要: 3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation
- arxiv url: http://arxiv.org/abs/2410.10901v1
- Date: Sun, 13 Oct 2024 02:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:42.419973
- Title: 3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation
- Title(参考訳): 3DS:分解困難データ選択のLLM医学領域適応のケーススタディ
- Authors: Hongxin Ding, Yue Fang, Runchuan Zhu, Xinke Jiang, Jinyang Zhang, Yongxin Xu, Xu Chu, Junfeng Zhao, Yasha Wang,
- Abstract要約: 大きな言語モデルは一般的なタスクでは優れていますが、医療のような専門分野では苦労しています。
2段階モデル中心のデータ選択フレームワークDe Difficulty Data Selection (3DS)を提案する。
実世界の医療データセットに関する我々の実験は、既存の方法よりも5.29%以上の精度で3DSの方が優れていることを示した。
- 参考スコア(独自算出の注目度): 13.058299222554295
- License:
- Abstract: Large Language Models(LLMs) excel in general tasks but struggle in specialized domains like healthcare due to limited domain-specific knowledge.Supervised Fine-Tuning(SFT) data construction for domain adaptation often relies on heuristic methods, such as GPT-4 annotation or manual data selection, with a data-centric focus on presumed diverse, high-quality datasets. However, these methods overlook the model's inherent knowledge distribution, introducing noise, redundancy, and irrelevant data, leading to a mismatch between the selected data and the model's learning task, resulting in suboptimal performance. To address this, we propose a two-stage model-centric data selection framework, Decomposed Difficulty Data Selection (3DS), which aligns data with the model's knowledge distribution for optimized adaptation. In Stage1, we apply Prompt-Driven Data Selection via Explicit Alignment, where the the model filters irrelevant or redundant data based on its internal knowledge. In Stage2, we perform Decomposed Difficulty Data Selection, where data selection is guided by our defined difficulty decomposition, using three metrics: Instruction Understanding, Response Confidence, and Response Correctness. Additionally, an attention-based importance weighting mechanism captures token importance for more accurate difficulty calibration. This two-stage approach ensures the selected data is not only aligned with the model's knowledge and preferences but also appropriately challenging for the model to learn, leading to more effective and targeted domain adaptation. In the case study of the medical domain, our extensive experiments on real-world healthcare datasets demonstrate the superiority of 3DS over exisiting methods in accuracy by over 5.29%. Our dataset and code will be open-sourced at https://anonymous.4open.science/r/3DS-E67F.
- Abstract(参考訳): 大きな言語モデル(LLM)は、一般的なタスクでは優れているが、ドメイン固有の知識が限られているため、医療のような専門分野では苦労している。
しかし、これらの手法は、モデル固有の知識分布を見落とし、ノイズ、冗長性、無関係なデータを導入し、選択したデータとモデルの学習タスクをミスマッチさせ、最適以下の性能をもたらす。
そこで本研究では,2段階のモデル中心データ選択フレームワークであるDecomposed Difficulty Data Selection (3DS)を提案する。
Stage1では、モデルが内部知識に基づいて無関係または冗長なデータをフィルタリングするExplicit Alignmentを介して、Prompt-Driven Data Selectionを適用します。
ステージ2では、データ選択が決定された難易度分解によってガイドされ、インストラクション理解、応答信頼、応答正当性という3つの指標が使用される。
さらに、注意に基づく重要度重み付け機構は、より正確な難易度校正のためにトークンの重要性を捉える。
この2段階のアプローチは、選択されたデータがモデルの知識と嗜好に合致するだけでなく、モデルが学習する上で適切に挑戦することを保証する。
医療領域のケーススタディでは、実世界の医療データセットに関する広範な実験により、既存の手法よりも5.29%以上の精度で3DSの優位性を実証した。
データセットとコードはhttps://anonymous.4open.science/r/3DS-E67Fでオープンソース化されます。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Selective Forgetting of Deep Networks at a Finer Level than Samples [0.0]
サンプルレベルよりも細かいレベルで分類タスクの選択的な忘れを定式化します。
2つの条件で区別される4つのデータセットに基づいて、より細かいレベルを指定します。
実験の結果,提案手法は分類に特定の情報を用いるのを忘れさせることができた。
論文 参考訳(メタデータ) (2020-12-22T06:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。