論文の概要: Learning to Re-rank with Constrained Meta-Optimal Transport
- arxiv url: http://arxiv.org/abs/2305.00319v1
- Date: Sat, 29 Apr 2023 18:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 15:52:55.721130
- Title: Learning to Re-rank with Constrained Meta-Optimal Transport
- Title(参考訳): 制約付きメタ最適輸送による再ランク学習
- Authors: Andr\'es Hoyos-Idrobo
- Abstract要約: 本稿は、公正な再ランクポリシーを予測するための、新しく、高速で、軽量な方法を提供する。
Gumbel-Matching Sampling (GumMS)についても紹介する。
実験の結果,CoMOTは,クエリ毎の平均文書数に比例して,保持データに対する公正な再ランクポリシを急速に予測することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many re-ranking strategies in search systems rely on stochastic ranking
policies, encoded as Doubly-Stochastic (DS) matrices, that satisfy desired
ranking constraints in expectation, e.g., Fairness of Exposure (FOE). These
strategies are generally two-stage pipelines: \emph{i)} an offline re-ranking
policy construction step and \emph{ii)} an online sampling of rankings step.
Building a re-ranking policy requires repeatedly solving a constrained
optimization problem, one for each issued query. Thus, it is necessary to
recompute the optimization procedure for any new/unseen query. Regarding
sampling, the Birkhoff-von-Neumann decomposition (BvND) is the favored approach
to draw rankings from any DS-based policy. However, the BvND is too costly to
compute online. Hence, the BvND as a sampling solution is memory-consuming as
it can grow as $\gO(N\, n^2)$ for $N$ queries and $n$ documents.
This paper offers a novel, fast, lightweight way to predict fair stochastic
re-ranking policies: Constrained Meta-Optimal Transport (CoMOT). This method
fits a neural network shared across queries like a learning-to-rank system. We
also introduce Gumbel-Matching Sampling (GumMS), an online sampling approach
from DS-based policies. Our proposed pipeline, CoMOT + GumMS, only needs to
store the parameters of a single model, and it generalizes to unseen queries.
We empirically evaluated our pipeline on the TREC 2019 and 2020 datasets under
FOE constraints. Our experiments show that CoMOT rapidly predicts fair
re-ranking policies on held-out data, with a speed-up proportional to the
average number of documents per query. It also displays fairness and ranking
performance similar to the original optimization-based policy. Furthermore, we
empirically validate the effectiveness of GumMS to approximate DS-based
policies in expectation.
- Abstract(参考訳): 検索システムにおける多くの再ランク戦略は確率的ランク付けポリシーに依存しており、Douubly-Stochastic (DS) 行列として符号化されており、期待されるランク付けの制約を満たす。
これらの戦略は一般的に2段階のパイプラインである: \emph{i} はオフラインのポリシー構築ステップであり、 \emph{ii} はオンラインのランキング手順のサンプリングである。
再ランクポリシを構築するには、各発行されたクエリに対して、制約付き最適化問題を繰り返し解決する必要がある。
したがって、新しい/未知のクエリの最適化手順を再計算する必要がある。
サンプリングに関して、Birkhoff-von-Neumann分解(BvND)は、DSベースのポリシーからランキングを引き出すための好ましいアプローチである。
しかし、BvNDはオンラインで計算するには高すぎる。
したがって、サンプリングソリューションとしてのBvNDは、$N$クエリと$n$ドキュメントに対して$\gO(N\, n^2)$として成長できるため、メモリ消費である。
本稿では,公正な確率的再配置政策を予測するための新しい,高速で軽量な方法,制約付きメタ最適輸送 (comot) を提案する。
この方法は、学習からランクまでのシステムのようなクエリ間で共有されるニューラルネットワークに適合する。
また、dsベースのポリシーによるオンラインサンプリングアプローチであるgumbel-matching sampling (gumms)についても紹介する。
提案するパイプラインである CoMOT + GumMS は,単一のモデルのパラメータを格納するだけでよい。
FOE制約の下で、TREC 2019と2020のデータセットでパイプラインを実証的に評価しました。
実験の結果,CoMOTは,クエリ毎の平均文書数に比例して,保持データに対する公正な再ランクポリシを急速に予測することがわかった。
また、オリジナルの最適化ベースのポリシーと同様の公平さとランキングパフォーマンスを表示する。
さらに,GumMS の有効性を実証的に検証し,DS ベースのポリシーを予測する。
関連論文リスト
- Learning While Repositioning in On-Demand Vehicle Sharing Networks [4.724825031148413]
我々は、一方通行のオンデマンド車両共有サービスによるネットワーク在庫問題を考える。
自然なリプシッツ帯域法が$widetildeO(Tfracnn+1)$の後悔の保証を達成できることを示し、これは$n$に対する指数的依存に悩まされる。
これらの課題に乗じて、検閲された需要のみに依存するオンライン・グラディエント・リポジション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-31T15:16:02Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z) - Sequential Density Ratio Estimation for Simultaneous Optimization of
Speed and Accuracy [11.470070927586017]
本稿では,この2つの障害を克服する深層ニューラルネットワークに基づくSPRTアルゴリズムであるSPRT-TANDEMを提案する。
1つのオリジナルと2つの公開ビデオデータベースでのテストでは、SPRT-TANDEMは他のベースラインよりも統計的にかなり優れた分類精度を達成する。
論文 参考訳(メタデータ) (2020-06-10T01:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。