論文の概要: The Best of Both Worlds: Bridging Quality and Diversity in Data Selection with Bipartite Graph
- arxiv url: http://arxiv.org/abs/2410.12458v1
- Date: Wed, 16 Oct 2024 11:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:44.899234
- Title: The Best of Both Worlds: Bridging Quality and Diversity in Data Selection with Bipartite Graph
- Title(参考訳): 両世界のベスト - Bipartite Graphによるデータ選択における品質と多様性のブリッジ
- Authors: Minghao Wu, Thuy-Trang Vu, Lizhen Qu, Gholamreza Haffari,
- Abstract要約: 文をn-gramにリンクする二部グラフとしてデータセットを表現する新しい方法であるGraphFilterを導入する。
この表現は文と言語パターンの関係を効果的に捉え、n-gramの多様性を高める文の選択を容易にする。
GraphFilterは、高優先度の文を反復的に選択し、カバーされたn-gramを取り除き、二部グラフを更新し、進化するデータランドスケープを反映するように優先順位を再計算する。
- 参考スコア(独自算出の注目度): 45.51085356985464
- License:
- Abstract: The performance of large language models (LLMs) in natural language processing (NLP) tasks is significantly influenced by the quality and diversity of data used for supervised fine-tuning (SFT). Current data selection methods often focus solely on quality or diversity, leading to underperforming models due to suboptimal training data. In this paper, we introduce GraphFilter, a novel method that represents the dataset as a bipartite graph, linking sentences to their constituent n-grams. This representation effectively captures the relationships between sentences and linguistic patterns, facilitating the selection of sentences that enhance n-gram diversity. To balance quality and diversity during selection, we propose a priority function that combines the quality metric with the diversity metric in a multiplicative manner. GraphFilter iteratively selects high-priority sentences, updates the bipartite graph by removing covered n-grams, and re-calculates priorities to reflect the evolving data landscape. We conduct extensive experiments using three model backbones across six widely used benchmarks. The results demonstrate that GraphFilter outperforms all nine baseline approaches, achieving superior model performance and computational efficiency. Our analyses validate the effectiveness of our design choices, examine the subsets selected by GraphFilter and other methods, highlight the importance of instruction diversity, and explore the role of quality and diversity in relation to subset sizes. GraphFilter establishes a new foundation for effective data selection strategies, encouraging further research in data selection for LLMs.
- Abstract(参考訳): 自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の性能は、教師付き微調整(SFT)に使用されるデータの質と多様性に大きく影響される。
現在のデータ選択手法は品質や多様性のみに重点を置いており、最適以下のトレーニングデータによるモデルの性能の低下につながっている。
本稿では,データセットを二部グラフとして表現し,文をn-gramにリンクする新しい方法であるGraphFilterを紹介する。
この表現は文と言語パターンの関係を効果的に捉え、n-gramの多様性を高める文の選択を容易にする。
選択中の品質と多様性のバランスをとるために,品質指標と多様性指標を乗法的に組み合わせた優先順位関数を提案する。
GraphFilterは、高優先度の文を反復的に選択し、カバーされたn-gramを取り除き、二部グラフを更新し、進化するデータランドスケープを反映するように優先順位を再計算する。
6つの広く使用されているベンチマークで3つのモデルバックボーンを用いて広範な実験を行う。
その結果、GraphFilterは9つのベースラインアプローチをすべて上回る性能を示し、優れたモデル性能と計算効率を実現している。
本分析は,設計選択の有効性を検証し,GraphFilterや他の手法で選択したサブセットを検証し,命令の多様性の重要性を強調し,サブセットサイズに関連する品質と多様性の役割について検討する。
GraphFilterは、効率的なデータ選択戦略のための新しい基盤を確立し、LLMのデータ選択に関するさらなる研究を奨励している。
関連論文リスト
- Unleashing the Power of LLMs as Multi-Modal Encoders for Text and Graph-Structured Data [42.18348019901044]
グラフ構造化情報は、言語モデルを強化するためのリッチなコンテキスト情報を提供する。
グラフとテキストの埋め込みを統合する既存の方法は、これらのモダリティの不均一性を完全に活用する能力に制限されている。
我々は,大規模言語モデル(LLM)を利用してテキストとグラフデータを共同符号化するフレームワークであるJanusを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:40:20Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Diversity Measurement and Subset Selection for Instruction Tuning
Datasets [40.930387018872786]
決定点プロセスを用いて、サブセット選択のための命令チューニングデータセットの多様性と品質をキャプチャする。
興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
論文 参考訳(メタデータ) (2024-02-04T02:09:43Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。