Fugu-MT 論文翻訳(概要): Exploiting Transitivity for Top-k Selection with Score-Based Dueling Bandits

論文の概要: Exploiting Transitivity for Top-k Selection with Score-Based Dueling Bandits

arxiv url: http://arxiv.org/abs/2012.15637v1
Date: Thu, 31 Dec 2020 14:54:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-17 23:30:28.361780
Title: Exploiting Transitivity for Top-k Selection with Score-Based Dueling Bandits
Title（参考訳）: Score-based Dueling Bandits を用いたトップk選択のための爆発的トランジトリシティ
Authors: Matthew Groves and Juergen Branke
Abstract要約: スコア情報を用いたデュエル・バンディット問題における上位kサブセット選択の問題を検討する。本稿では,thurstonianスタイルモデルを提案し,部分集合選択(pocbam)サンプリング法にペアワイズ最適計算予算割り当てを適用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the problem of top-k subset selection in Dueling Bandit problems with score information. Real-world pairwise ranking problems often exhibit a high degree of transitivity and prior work has suggested sampling methods that exploit such transitivity through the use of parametric preference models like the Bradley-Terry-Luce (BTL) and Thurstone models. To date, this work has focused on cases where sample outcomes are win/loss binary responses. We extend this to selection problems where sampling results contain quantitative information by proposing a Thurstonian style model and adapting the Pairwise Optimal Computing Budget Allocation for subset selection (POCBAm) sampling method to exploit this model for efficient sample selection. We compare the empirical performance against standard POCBAm and other competing algorithms.
Abstract（参考訳）: 得点情報を用いたデュエルバンディット問題において,トップkサブセット選択の問題を考える。実世界のペアワイズランキング問題はしばしば高い推移性を示し、先行研究ではブラッドリー・テリー・ルース(英語版)(btl)やサーストーン(英語版)モデルのようなパラメトリックな選好モデルを用いてそのような推移性を利用するサンプリング手法が提案されている。これまでこの研究は、サンプル結果が勝利/損失バイナリ応答であるケースに焦点を当ててきた。本稿では、サーストン型モデルを提案し、サブセット選択のためのPairwise Optimal Computing Budget Allocation(POCBAm)を適用することで、サンプリング結果が定量的情報を含む選択問題に拡張し、このモデルを効率的なサンプル選択に活用する。実験性能を標準的なPOCBAmや他の競合アルゴリズムと比較する。

関連論文リスト

Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文参考訳（メタデータ） (2026-02-08T00:09:40Z)
LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文参考訳（メタデータ） (2025-10-01T12:52:25Z)
ClusterUCB: Efficient Gradient-Based Data Selection for Targeted Fine-Tuning of LLMs [22.68421108740517]
本稿では、クラスタリングと修正されたアッパー信頼境界(UCB)アルゴリズムを用いた効率的な勾配に基づくデータ選択フレームワークを提案する。各種ベンチマーク実験の結果,提案フレームワークであるClusterUCBは,従来の勾配に基づくデータ選択法と同等の結果が得られることがわかった。
論文参考訳（メタデータ） (2025-06-12T01:53:01Z)
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文参考訳（メタデータ） (2025-02-24T04:22:57Z)
Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。 CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-04T18:59:23Z)
TSDS: Data Selection for Task-Specific Model Finetuning [39.19448080265558]
タスク固有の微調整の有効性は、適切なトレーニングデータの選択に大きく依存する。本稿では,タスク固有のモデル微調整のためのデータ選択フレームワークであるTSDS(Task-Specific Data Selection)を提案する。提案手法で選択したデータを用いて,1%選択率で命令チューニングを行う場合,全データセットで処理性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-15T05:54:17Z)
A Bilevel Optimization Framework for Imbalanced Data Classification [1.6385815610837167]
合成データによるノイズや重なりの落とし穴を回避する新しいアンダーサンプリング手法を提案する。多数データをランダムにアンサンプするのではなく、モデル損失を改善する能力に基づいてデータポイントをアンアンサンプする。本手法は,モデル損失の改善を指標として,データポイントが損失に与える影響を評価し,それを改善することができない者を拒絶する。
論文参考訳（メタデータ） (2024-10-15T01:17:23Z)
Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [38.39395973523944]
本稿では,データ選択のための3段階のスキームを提案し,既存の作品のレビューを行う。データ特化ラベルとモデル特化ラベルを併用したよりターゲット的な手法の方が効率が良いことが判明した。
論文参考訳（メタデータ） (2024-06-20T08:58:58Z)
BWS: Best Window Selection Based on Sample Scores for Data Pruning across Broad Ranges [12.248397169100784]
データサブセットの選択は、フルデータセットのトレーニングを近似できる大規模なデータセットの、小さくても情報に富むサブセットを見つけることを目的としている。難易度スコアに基づいて順序付けされたサンプルから最適なウィンドウサブセットを選択する方法を提案することにより、普遍的で効率的なデータサブセット選択法であるBest Window Selection(BWS)を導入する。
論文参考訳（メタデータ） (2024-06-05T08:33:09Z)
Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文参考訳（メタデータ） (2023-10-17T08:04:45Z)
Optimal Sample Selection Through Uncertainty Estimation and Its Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文参考訳（メタデータ） (2023-09-05T14:06:33Z)
In Search of Insights, Not Magic Bullets: Towards Demystification of the Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文参考訳（メタデータ） (2023-02-06T16:55:37Z)
Out-of-sample scoring and automatic selection of causal estimators [0.0]
本稿では,CATEの場合と器楽変数問題の重要な部分集合に対する新しいスコアリング手法を提案する。私たちはそれを、DoWhyとEconMLライブラリに依存するオープンソースパッケージで実装しています。
論文参考訳（メタデータ） (2022-12-20T08:29:18Z)
Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文参考訳（メタデータ） (2021-10-08T13:51:55Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。具体的には、対照的な学習方法でネットワークをトレーニングする。各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文参考訳（メタデータ） (2021-03-24T07:26:07Z)
Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文参考訳（メタデータ） (2020-10-21T13:43:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。