Fugu-MT 論文翻訳(概要): PARWiS: Winner determination under shoestring budgets using active pairwise comparisons

論文の概要: PARWiS: Winner determination under shoestring budgets using active pairwise comparisons

arxiv url: http://arxiv.org/abs/2603.01171v1
Date: Sun, 01 Mar 2026 16:21:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.551509
Title: PARWiS: Winner determination under shoestring budgets using active pairwise comparisons
Title（参考訳）: PARWiS:アクティブなペアワイズ比較によるシューティング予算下の勝者決定
Authors: Shailendra Bhandari,
Abstract要約: PARWiSアルゴリズムは、スペクトルランキングと破壊的なペア選択を示し、靴磨き予算の下で最高のアイテムを識別する。この研究は、文脈変種(Contextual PARWiS)と強化学習に基づく変種(RL PARWiS)でPARWiSを拡張した。その結果、PARWiSとRL PARWiSは全てのデータセットでベースラインを上回っていることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Determining a winner among a set of items using active pairwise comparisons under a limited budget is a challenging problem in preference-based learning. The goal of this study is to implement and evaluate the PARWiS algorithm, which shows spectral ranking and disruptive pair selection to identify the best item under shoestring budgets. This work have extended the PARWiS with a contextual variant (Contextual PARWiS) and a reinforcement learning-based variant (RL PARWiS), comparing them against baselines, including Double Thompson Sampling and a random selection strategy. This evaluation spans synthetic and real-world datasets (Jester and MovieLens), using budgets of 40, 60, and 80 comparisons for 20 items. The performance is measured through recovery fraction, true rank of reported winner, reported rank of true winner, and cumulative regret, alongside the separation metric $Δ_{1,2}$. Results show that PARWiS and RL PARWiS outperform baselines across all datasets, particularly in the Jester dataset with a higher $Δ_{1,2}$, while performance gaps narrow in the more challenging MovieLens dataset with a smaller $Δ_{1,2}$. Contextual PARWiS shows comparable performance to PARWiS, indicating that contextual features may require further tuning to provide significant benefits.
Abstract（参考訳）: 限られた予算の下で、アクティブなペアワイズ比較を用いてアイテムセットの勝者を決定することは、嗜好に基づく学習において難しい問題である。本研究の目的はPARWiSアルゴリズムの実装と評価である。このアルゴリズムは、スペクトルランキングと破壊的なペア選択を示し、靴磨き予算の下で最高のアイテムを識別する。この研究は、PARWiSを文脈的変種(Contextual PARWiS)と強化学習に基づく変種(RL PARWiS)で拡張し、ダブルトンプソンサンプリングやランダム選択戦略を含むベースラインと比較した。この評価は、20項目の40、60、80の予算を用いて、合成および実世界のデータセット(JesterとMovieLens)にまたがる。性能は、回収率、報告された勝者の真のランク、報告された真の勝者のランク、および累積後悔によって測定され、分離計量 $Δ_{1,2}$ とともに測定される。その結果,PARWiS と RL PARWiS は全データセット,特により高い $Δ_{1,2}$ の Jester データセットにおいて,より困難な MovieLens データセットではより小さい $Δ_{1,2}$ の Jester データセットにおいて,ベースラインよりも優れていた。 PARWiS は PARWiS に匹敵する性能を示しており、コンテキスト機能は大きな利点をもたらすためにさらなるチューニングを必要とする可能性があることを示している。

関連論文リスト

Towards Compute-Optimal Many-Shot In-Context Learning [69.38428467281862]
マルチショットICLにおけるデモ選択のための2つの戦略を提案する。最初の方法は、テストサンプルの類似性に基づいて選択された少数のデモと、キャッシュされるランダムなデモの集合を組み合わせる。第2の戦略は、ランダムなデモをk平均クラスタリングによるテストサンプル表現から選択したセントロイドに置き換えることによって、第1の戦略を改善する。
論文参考訳（メタデータ） (2025-07-22T04:21:03Z)
The Differences Between Direct Alignment Algorithms are a Blur [3.0059120458540383]
1段階法(ORPO, ASFT)は2段階法に比べて性能が低いことを示す。明示的なSFTフェーズで2段階のセットアップに適応させることで性能が向上することを示す。総合的な分析により、ペアワイドとポイントワイドの目的の選択がアライメントの成功の主要な決定要因であることが判明した。
論文参考訳（メタデータ） (2025-02-03T10:54:14Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
Match, Compare, or Select? An Investigation of Large Language Models for Entity Matching [47.01589023992927]
我々は、複数の戦略と大規模言語モデル(LLM)の構成を利用する複合エンティティマッチングフレームワーク(ComEM)を設計する。 ComEMは、異なる側面の利点から恩恵を受け、効率性と効率性の両方の改善を実現します。 8つのERデータセットと10個のLLMによる実験結果から,選択戦略によるレコードインタラクションの優越性を検証した。
論文参考訳（メタデータ） (2024-05-27T07:05:27Z)
Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons [10.94304714004328]
本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。 PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
論文参考訳（メタデータ） (2024-05-09T16:45:27Z)
Predicting Text Preference Via Structured Comparative Reasoning [110.49560164568791]
我々は、構造化中間比較を生成することによって、テキストの嗜好を予測するプロンプト方式であるSCを導入する。我々は、テキスト間の差異を明確に区別するためのペアワイズ整合コンパレータと一貫した比較を選択する。要約,検索,自動評価など多種多様なNLPタスクに対する総合的な評価は,SCがテキスト優先予測における最先端性能を達成するためにLLMを装備していることを示す。
論文参考訳（メタデータ） (2023-11-14T18:51:38Z)
Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文参考訳（メタデータ） (2021-10-08T13:51:55Z)
Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文参考訳（メタデータ） (2020-02-26T16:19:09Z)
Preference Modeling with Context-Dependent Salient Features [12.403492796441434]
本稿では,各項目の特徴について,ノイズの多いペアワイド比較から,項目集合のランキングを推定する問題を考察する。私たちのキーとなる観察は、他の項目から分離して比較した2つの項目は、機能の健全なサブセットのみに基づいて比較できるということです。
論文参考訳（メタデータ） (2020-02-22T04:05:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。