論文の概要: The Best of Both Worlds: Bridging Quality and Diversity in Data Selection with Bipartite Graph
- arxiv url: http://arxiv.org/abs/2410.12458v2
- Date: Mon, 26 May 2025 19:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:18.655819
- Title: The Best of Both Worlds: Bridging Quality and Diversity in Data Selection with Bipartite Graph
- Title(参考訳): 両世界のベスト - Bipartite Graphによるデータ選択における品質と多様性のブリッジ
- Authors: Minghao Wu, Thuy-Trang Vu, Lizhen Qu, Gholamreza Haffari,
- Abstract要約: GraphFilterは、データ選択における品質と多様性のバランスをとる新しいアプローチです。
GraphFilterは、最優先の文を反復的に選択し、二部グラフからカバーされたn-gramを取り除き、優先度を再計算して、変化するデータランドスケープを反映する。
6つの広く使用されているベンチマークで3つのモデルバックボーンを使用してGraphFilterを検証する。
- 参考スコア(独自算出の注目度): 45.51085356985464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of large language models (LLMs) is strongly influenced by the quality and diversity of data used during supervised fine-tuning (SFT). However, current data selection methods often prioritize one aspect over the other, resulting in suboptimal training outcomes. To address this, we formulate data selection as a set cover problem and present GraphFilter, a novel approach that balances both quality and diversity in data selection. GraphFilter models the dataset as a bipartite graph connecting sentences to their constituent n-grams, then employs a priority function that combines quality and diversity metrics multiplicatively. GraphFilter iteratively selects sentences with the highest priority, removes covered n-grams from the bipartite graph, and recomputes priorities to reflect the changing data landscape. We validate GraphFilter using three model backbones across six widely-used benchmarks, demonstrating that it outperforms nine existing baselines in both model performance and computational efficiency. Further analysis shows that our design choices lead to more effective subset selection, underscores the value of instruction diversity, and provides insights into how quality and diversity interact with different subset sizes.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は、教師付き微調整(SFT)で使用されるデータの質と多様性に強く影響される。
しかし、現在のデータ選択手法は、ある側面を他方よりも優先することが多く、結果として準最適トレーニング結果が得られる。
これを解決するために、データ選択を集合被覆問題として定式化し、データ選択の質と多様性を両立させる新しいアプローチであるGraphFilterを提示する。
GraphFilterは、データセットを文をn-gramに接続する二部グラフとしてモデル化し、品質と多様性のメトリクスを乗法的に組み合わせた優先順位関数を使用する。
GraphFilterは、最優先の文を反復的に選択し、二部グラフからカバーされたn-gramを取り除き、優先度を再計算して、変化するデータランドスケープを反映する。
6つの広く使用されているベンチマークで3つのモデルバックボーンを使用してGraphFilterを検証する。
さらなる分析により、我々の設計選択はより効果的なサブセット選択をもたらし、命令の多様性の価値を強調し、品質と多様性が異なるサブセットサイズとどのように相互作用するかについての洞察を提供する。
関連論文リスト
- Investigating the Impact of Data Selection Strategies on Language Model Performance [1.0013553984400492]
本研究では,異なるデータ選択手法と特徴型がモデル性能に与える影響について検討する。
我々は,データサブセットの選択が下流タスクに影響を及ぼすか,n-gram特徴が目標分布との整合性を改善するか,埋め込み型ニューラルネットワーク特徴が相補的な利点をもたらすかを評価する。
論文 参考訳(メタデータ) (2025-01-07T14:38:49Z) - Unleashing the Power of LLMs as Multi-Modal Encoders for Text and Graph-Structured Data [42.18348019901044]
グラフ構造化情報は、言語モデルを強化するためのリッチなコンテキスト情報を提供する。
グラフとテキストの埋め込みを統合する既存の方法は、これらのモダリティの不均一性を完全に活用する能力に制限されている。
我々は,大規模言語モデル(LLM)を利用してテキストとグラフデータを共同符号化するフレームワークであるJanusを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:40:20Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Diversity Measurement and Subset Selection for Instruction Tuning
Datasets [40.930387018872786]
決定点プロセスを用いて、サブセット選択のための命令チューニングデータセットの多様性と品質をキャプチャする。
興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
論文 参考訳(メタデータ) (2024-02-04T02:09:43Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。