論文の概要: From Tags to Trees: Structuring Fine-Grained Knowledge for Controllable Data Selection in LLM Instruction Tuning
- arxiv url: http://arxiv.org/abs/2601.13995v1
- Date: Tue, 20 Jan 2026 14:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.344088
- Title: From Tags to Trees: Structuring Fine-Grained Knowledge for Controllable Data Selection in LLM Instruction Tuning
- Title(参考訳): タグから木へ: LLMインストラクションチューニングにおける制御可能なデータ選択のための微粒化知識の構造化
- Authors: Zihan Niu, Wenping Hu, Junmin Chen, Xiyue Wang, Tong Xu, Ruiming Tang,
- Abstract要約: Tree-Aware Aligned Global Sampling (TAGS)は、きめ細かいタグから構築された知識ツリーを活用する統一フレームワークである。
我々の制御可能なサンプリング戦略は、木レベル情報ゲインを最大化し、特定のドメインに対するKL分割による葉レベルアライメントを強制する。
- 参考スコア(独自算出の注目度): 31.186300383302708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective and controllable data selection is critical for LLM instruction tuning, especially with massive open-source datasets. Existing approaches primarily rely on instance-level quality scores, or diversity metrics based on embedding clusters or semantic tags. However, constrained by the flatness of embedding spaces or the coarseness of tags, these approaches overlook fine-grained knowledge and its intrinsic hierarchical dependencies, consequently hindering precise data valuation and knowledge-aligned sampling. To address this challenge, we propose Tree-aware Aligned Global Sampling (TAGS), a unified framework that leverages a knowledge tree built from fine-grained tags, thereby enabling joint control of global quality, diversity, and target alignment. Using an LLM-based tagger, we extract atomic knowledge concepts, which are organized into a global tree through bottom-up hierarchical clustering. By grounding data instances onto this tree, a tree-aware metric then quantifies data quality and diversity, facilitating effective sampling. Our controllable sampling strategy maximizes tree-level information gain and enforces leaf-level alignment via KL-divergence for specific domains. Extensive experiments demonstrate that TAGS significantly outperforms state-of-the-art baselines. Notably, it surpasses the full-dataset model by \textbf{+5.84\%} using only \textbf{5\%} of the data, while our aligned sampling strategy further boosts average performance by \textbf{+4.24\%}.
- Abstract(参考訳): LLM命令のチューニングには、特に大規模なオープンソースデータセットでは、有効かつ制御可能なデータ選択が不可欠である。
既存のアプローチは、主にインスタンスレベルの品質スコア、あるいは組み込みクラスタやセマンティックタグに基づく多様性メトリクスに依存しています。
しかし、埋め込み空間の平坦さやタグの粗さに制約されて、これらのアプローチはきめ細かな知識と固有の階層的依存関係を見落とし、正確なデータバリュエーションと知識整合サンプリングを妨げる。
この課題に対処するため,我々は,細粒度タグから構築された知識ツリーを活用する統合フレームワークであるT木対応グローバルサンプリング(TAGS)を提案し,グローバル品質,多様性,ターゲットアライメントの協調制御を可能にする。
ボトムアップ階層クラスタリングによりグローバルツリーに整理された原子知識の概念をLLMベースのタグで抽出する。
この木にデータインスタンスを接地することで、ツリー対応メトリックはデータ品質と多様性を定量化し、効果的なサンプリングを容易にする。
我々の制御可能なサンプリング戦略は、木レベル情報ゲインを最大化し、特定のドメインに対するKL分割による葉レベルアライメントを強制する。
大規模な実験により、TAGSは最先端のベースラインを著しく上回ることが示された。
特に、データのtextbf{+5.84\%} のみを用いて、フルデータセットモデルを超えるが、我々のアライメントサンプリング戦略は、さらに、textbf{+4.24\%} の平均性能を向上させる。
関連論文リスト
- Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Divide-Then-Rule: A Cluster-Driven Hierarchical Interpolator for Attribute-Missing Graphs [51.13363550716544]
ディープグラフクラスタリングは、不完全な属性を持つノードを異なるクラスタに分割することを目的とした教師なしのタスクである。
既存の属性欠落グラフの計算法は、ノード近傍で利用可能な情報の量が異なることを説明できないことが多い。
この問題に対処するために、DTRGC(Divide-Then-Rule Graph Completion)を提案する。
論文 参考訳(メタデータ) (2025-07-12T03:33:19Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Incorporating Attributes and Multi-Scale Structures for Heterogeneous Graph Contrastive Learning [8.889313669713918]
異種グラフのための新しいコントラスト学習フレームワーク(ASHGCL)を提案する。
ASHGCLには3つの異なるビューがあり、それぞれがノード属性、高階構造情報、低階構造情報に焦点を当てている。
本稿では,属性情報と属性情報を組み合わせた属性強化型正のサンプル選択手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T05:15:21Z) - scTree: Discovering Cellular Hierarchies in the Presence of Batch Effects in scRNA-seq Data [12.01555110624794]
scTreeは、ツリー構造データ表現を同時に学習しながら、バッチ効果を補正する。
scTreeがデータの基礎となるクラスタを発見できる7つのデータセットを実証的に示す。
論文 参考訳(メタデータ) (2024-06-27T16:16:55Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Interactive Steering of Hierarchical Clustering [30.371250297444703]
本稿では,公開知識(ウィキペディアなど)とユーザからのプライベート知識の両方を活用することで,制約付き階層的クラスタリングを視覚的に監視するインタラクティブなステアリング手法を提案する。
1)知識(知識駆動)と本質的なデータ分散(データ駆動)を用いて階層的クラスタリングの制約を自動的に構築する。
階層的クラスタリングの結果を明確に伝達するために,不確実性を考慮したツリー可視化が開発され,最も不確実なサブ階層を素早く見つけることができる。
論文 参考訳(メタデータ) (2020-09-21T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。