論文の概要: Instruction Data Selection via Answer Divergence
- arxiv url: http://arxiv.org/abs/2604.10448v2
- Date: Sun, 19 Apr 2026 03:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:30.999221
- Title: Instruction Data Selection via Answer Divergence
- Title(参考訳): 回答の多様性による指導データ選択
- Authors: Bo Li, Mingda Wang, Shikun Zhang, Wei Ye,
- Abstract要約: マルチサンプル出力の幾何学的構造に基づいて命令データを選択するAnswer Divergence-Guided Selection (ADG)を提案する。
ADGは命令ごとに高温世代を描画し、応答を埋め込み空間にマッピングし、出力分散スコアを計算する。
高いスコアは、一つの方向に沿ってクラスタ化されたパラフレーズではなく、答えが遠く、多様である指示に対応する。
- 参考スコア(独自算出の注目度): 33.92400883748616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning relies on large instruction-response corpora whose quality and composition strongly affect downstream performance. We propose Answer Divergence-Guided Selection (ADG), which selects instruction data based on the geometric structure of multi-sample outputs. ADG draws several high-temperature generations per instruction, maps responses into an embedding space, and computes an output divergence score that jointly encodes dispersion magnitude and shape anisotropy. High scores correspond to instructions whose answers are both far apart and multi-modal, rather than clustered paraphrases along a single direction. Across two backbones and three public instruction pools, fine-tuning on only 10K ADG-selected examples consistently outperforms strong selectors on six benchmarks spanning reasoning, knowledge, and coding. Analyses further show that both dispersion magnitude and shape anisotropy are necessary, supporting answer divergence as a practical signal for instruction data selection. Code and appendix are included in the supplementary materials.
- Abstract(参考訳): インストラクションチューニングは、下流の性能に強い品質と構成を持つ大規模な命令応答コーパスに依存している。
マルチサンプル出力の幾何学的構造に基づいて命令データを選択するAnswer Divergence-Guided Selection (ADG)を提案する。
ADGは命令ごとに高温世代を描画し、応答を埋め込み空間にマッピングし、分散度と形状異方性を共同で符号化する出力分散スコアを計算する。
高いスコアは、一つの方向に沿ってクラスタ化されたパラフレーズではなく、答えが遠く、多様である指示に対応する。
2つのバックボーンと3つの公開命令プールにまたがって、10K ADG選択例の微調整は、推論、知識、コーディングにまたがる6つのベンチマークにおいて、強いセレクタよりも一貫して優れています。
さらに、分散度と形状異方性の両方が必要とされることを示し、データ選択のための実用的な信号として解の発散を支援する。
補足資料にはコードと付録が含まれている。
関連論文リスト
- What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。
データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-01T07:30:22Z) - Exploring Instruction Data Quality for Explainable Image Quality Assessment [58.345719195248314]
説明可能なIQAのための指導調律データセットにおけるデータ品質の役割について検討する。
データセットのサブセットをランダムに選択することで、インストラクションチューニングデータセット全体のトレーニングよりも優れた結果が得られます。
本稿では,クラスタリング特徴抽出,クラスタクォータ割り当て,クラスタサンプリング戦略の3段階からなるクラスタリングに基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-04T17:12:54Z) - Icon$^{2}$: Aligning Large Language Models Using Self-Synthetic Preference Data via Inherent Regulation [14.249938992666202]
大きな言語モデル(LLM)は、人間の好みに合わせて高品質な嗜好データセットを必要とする。
本研究では,LLMの表現空間に固有の規則を取り入れたパラダイムシフトを,効率的でカスタマイズされた選好データセット構築のために検討する。
論文 参考訳(メタデータ) (2025-09-06T05:38:47Z) - Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning [24.33670771559359]
提案するSelect2Reasonは,Long-CoT推論のための新しい,効率的な命令チューニングデータ選択フレームワークである。
Select2Reasonは,3つの競合レベルと6つの総合的な数学的ベンチマークで,フルデータチューニングとオープンソースベースラインOpenR1-Qwen-7Bに比較して,性能を向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T20:24:08Z) - Unsupervised Feature Selection Algorithm Based on Dual Manifold Re-ranking [5.840228332438659]
本稿では,2次多様体再ランク付け(DMRR)に基づく教師なし特徴選択アルゴリズムを提案する。
異なる類似度行列は、サンプル間、サンプル間、特徴間、特徴間の多様体構造を記述するために構築される。
DMRRを3つの教師なし特徴選択アルゴリズムと2つの教師なし特徴選択後処理アルゴリズムと比較することにより、異なるサンプルの重要性情報と、より優れた特徴選択を実現するために、サンプルと特徴の二重関係が有用であることを確認した。
論文 参考訳(メタデータ) (2024-10-27T09:29:17Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。