Fugu-MT 論文翻訳(概要): Let the Target Select for Itself: Data Selection via Target-Aligned Paths

論文の概要: Let the Target Select for Itself: Data Selection via Target-Aligned Paths

arxiv url: http://arxiv.org/abs/2605.09404v1
Date: Sun, 10 May 2026 08:07:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.231665
Title: Let the Target Select for Itself: Data Selection via Target-Aligned Paths
Title（参考訳）: Let the Target Select for it: Data Selection via Target-Aligned Paths
Authors: Huitao Yang, Hengzhi He, Guang Cheng,
Abstract要約: 多くの方法は、候補プールによって誘導される軌道に沿って局所帰属スコアを集約することで、候補ユーティリティを推定する。本稿では,短時間のキャパシティ限定ウォームアップから得られる検証誘導フローという,別の参照パスを提案する。このスコアは、強力な動的属性ベースラインと競合すると同時に、ウォームアップとストレージコストを大幅に削減する。
参考スコア（独自算出の注目度）: 8.014241727054493
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Targeted data selection aims to identify training samples from a large candidate pool that improve performance on a specific downstream task. Many recent methods estimate candidate utility by aggregating local attribution scores along a trajectory induced by the candidate pool. When the pool is heterogeneous, however, this reference trajectory may be misaligned with the dynamics of a target-aligned selected subset, creating what we call reference path bias. We propose an alternative reference path: a validation-induced flow obtained from a short, capacity-limited warmup on the available target validation proxy. Along this path, candidates are scored by a normalized endpoint loss drop, yielding a simple zero-order selection rule that requires no candidate gradients or Hessian approximations. Across controlled logistic, vision, and instruction-tuning experiments, this score is competitive with strong dynamic attribution baselines while substantially reducing warmup and storage cost. Moreover, since the reference trajectory is decoupled from any specific candidate pool, the same compact warmup can be reused across additional pools without recomputing the trajectory.
Abstract（参考訳）: ターゲットデータの選択は、特定の下流タスクのパフォーマンスを改善するために、大きな候補プールからトレーニングサンプルを特定することを目的としている。最近の多くの手法は、候補プールによって誘導される軌道に沿って局所的な帰属スコアを集約することで、候補ユーティリティを推定する。しかし、プールが不均一である場合、この参照軌道は、ターゲットに整列された選択されたサブセットのダイナミクスと誤って一致し、参照パスバイアスと呼ばれるものを生成する。そこで本稿では,候補検証プロキシ上で,短時間でキャパシティに制限されたウォームアップから得られるバリデーション駆動フローという,代替の参照パスを提案する。この経路に沿って、候補は正規化されたエンドポイント損失ドロップによってスコアされ、候補勾配やヘッセン近似を必要としない単純なゼロ階選択規則が与えられる。制御されたロジスティック、ビジョン、命令調整実験全体において、このスコアは強力な動的属性ベースラインと競合し、ウォームアップとストレージコストを大幅に削減する。さらに、基準軌道は任意の候補プールから切り離されるので、同じコンパクトなウォームアップは軌道を再計算することなく追加プール間で再利用することができる。

関連論文リスト

Towards Disentangled Preference Optimization Dynamics Beyond Likelihood Displacement [33.80669933764735]
本稿では、選好最適化のインセンティブ・スコアを統一的に分解する。遠近距離帯域 (DB) は, トレーニングが回避できる場合に特徴付ける, 単純で検証可能な条件である。そこで本稿では,DB と確率変位を満たすために,選択された更新と削除された更新のバランスを適応的に調整するプラグイン・アンド・プレイ・アンフレワード・キャリブレーション(RC)を提案する。
論文参考訳（メタデータ） (2026-04-20T13:23:27Z)
From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。 LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文参考訳（メタデータ） (2025-10-06T17:58:01Z)
Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文参考訳（メタデータ） (2025-09-29T12:15:52Z)
Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。 FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文参考訳（メタデータ） (2025-08-25T02:55:42Z)
Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文参考訳（メタデータ） (2025-06-05T16:59:53Z)
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T11:47:56Z)
A Practical Diffusion Path for Sampling [8.174664278172367]
拡散モデルは生成モデルにおいてランゲヴィン過程を導くスコアベクトルを推定するために用いられる。従来のアプローチはモンテカルロ推定器に依存しており、計算的に計算量が多いか、サンプル非効率である。そこで我々は,いわゆる拡張経路に依存して,クローズド形式で利用可能なスコアベクトルを生成する,計算的に魅力的な代替案を提案する。
論文参考訳（メタデータ） (2024-06-20T07:00:56Z)
Low Budget Active Learning via Wasserstein Distance: An Integer Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文参考訳（メタデータ） (2021-06-05T21:25:03Z)
Probabilistic Anchor Assignment with IoU Prediction for Object Detection [9.703212439661097]
オブジェクト検出では、どのアンカーを正または負のサンプルとして割り当てるか、すなわちアンカー代入(アンカー代入)がモデルの性能に大きく影響を与えるコアプロシージャとして明らかにされている。本稿では,モデルの学習状況に応じて,アンカーを正と負のサンプルに適応的に分離する新しいアンカー代入戦略を提案する。
論文参考訳（メタデータ） (2020-07-16T04:26:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。