論文の概要: A Large-Scale Web Search Dataset for Federated Online Learning to Rank
- arxiv url: http://arxiv.org/abs/2508.12353v1
- Date: Sun, 17 Aug 2025 12:57:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.697902
- Title: A Large-Scale Web Search Dataset for Federated Online Learning to Rank
- Title(参考訳): フェデレーションオンライン学習における大規模Web検索データセットのランク付け
- Authors: Marcel Gregoriadis, Jingwei Kang, Johan Pouwelse,
- Abstract要約: 我々は,1万人のユーザから260万のクエリを検索する大規模Web検索データセットを提示する。
私たちのデータセットは、ユーザ識別子、実際のクリックデータ、クエリタイムスタンプを含むことで、既存のベンチマークの重要な制限に対処します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The centralized collection of search interaction logs for training ranking models raises significant privacy concerns. Federated Online Learning to Rank (FOLTR) offers a privacy-preserving alternative by enabling collaborative model training without sharing raw user data. However, benchmarks in FOLTR are largely based on random partitioning of classical learning-to-rank datasets, simulated user clicks, and the assumption of synchronous client participation. This oversimplifies real-world dynamics and undermines the realism of experimental results. We present AOL4FOLTR, a large-scale web search dataset with 2.6 million queries from 10,000 users. Our dataset addresses key limitations of existing benchmarks by including user identifiers, real click data, and query timestamps, enabling realistic user partitioning, behavior modeling, and asynchronous federated learning scenarios.
- Abstract(参考訳): ランキングモデルのトレーニングのための検索インタラクションログの集中収集は、重要なプライバシー上の懸念を提起する。
Federated Online Learning to Rank (FOLTR)は、生のユーザデータを共有せずに協調的なモデルトレーニングを可能にすることで、プライバシ保護の代替手段を提供する。
しかし、FOLTRのベンチマークは主に、古典的な学習からランクへのデータセットのランダムなパーティショニング、シミュレートされたユーザクリック、同期クライアント参加の仮定に基づいている。
これは実世界の力学を単純化し、実験結果のリアリズムを損なう。
AOL4FOLTRは大規模なWeb検索データセットで、1万人から260万のクェリがある。
我々のデータセットは、ユーザ識別子、実際のクリックデータ、クエリタイムスタンプを含む既存のベンチマークの重要な制限に対処し、現実的なユーザパーティショニング、振る舞いモデリング、非同期フェデレーション学習シナリオを可能にします。
関連論文リスト
- Effective and secure federated online learning to rank [5.874142059884521]
Online Learning to Rankは、クリックのような暗黙のユーザーフィードバックを使ってランキングモデルを最適化する。
これは、人間のアノテーションの高コスト、ユーザの好みと人間の判断の間の潜在的なミスアライメント、ユーザクエリインテントの急速な変更など、いくつかの欠点に対処する。
この論文は、フェデレートされたオンライン学習をランク付けするための総合的な研究であり、その有効性、堅牢性、セキュリティ、未学習の能力に対処している。
論文 参考訳(メタデータ) (2024-12-26T05:53:10Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - Replica Tree-based Federated Learning using Limited Data [6.572149681197959]
本研究では,RepTreeFLという新しいフェデレーション学習フレームワークを提案する。
ソリューションの中核はレプリカの概念であり、モデルアーキテクチャをコピーし、ローカルなデータ分散を摂動することで、各クライアントを複製します。
当社のアプローチでは,データ分布の多様さで多数のモデルを集約することで,限られたデータと少数のクライアントから学習することが可能である。
論文 参考訳(メタデータ) (2023-12-28T17:47:25Z) - FedSampling: A Better Sampling Strategy for Federated Learning [81.85411484302952]
フェデレートラーニング(FL)は、プライバシを保存する方法で分散化されたデータからモデルを学習するための重要なテクニックである。
既存のFLメソッドは通常、各ラウンドでローカルモデル学習のために一様にクライアントをサンプリングする。
フェデレート学習のための新しいデータ一様サンプリング戦略(FedSampling)を提案する。
論文 参考訳(メタデータ) (2023-06-25T13:38:51Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - FLIS: Clustered Federated Learning via Inference Similarity for Non-IID
Data Distribution [7.924081556869144]
本稿では,クライアント集団をクラスタにグループ化し,共同でトレーニング可能なデータ配信を行う新しいアルゴリズムFLISを提案する。
CIFAR-100/10, SVHN, FMNISTデータセット上の最先端ベンチマークに対するFLISの利点を示す実験結果を示す。
論文 参考訳(メタデータ) (2022-08-20T22:10:48Z) - IFedAvg: Interpretable Data-Interoperability for Federated Learning [39.388223565330385]
本研究では,表型データに対するフェデレーション学習において,クライアントデータの不整合によって引き起こされる低相互運用性の定義と対処を行う。
提案手法であるiFedAvgは、協調学習プロセスのパーソナライズされたきめ細かな理解を可能にするために、局所的な要素ワイドアフィン層を追加するフェデレーション平均化に基づいている。
我々は、2014~2016年の西アフリカエボラ流行から得られた、いくつかの公開ベンチマークと実世界のデータセットを用いて、iFedAvgを評価し、世界でも最大規模のデータセットを共同で作成した。
論文 参考訳(メタデータ) (2021-07-14T09:54:00Z) - Straggler-Resilient Federated Learning: Leveraging the Interplay Between
Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。
本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T19:21:14Z) - Multi-Center Federated Learning [62.57229809407692]
本稿では,フェデレート学習のための新しい多中心集約機構を提案する。
非IIDユーザデータから複数のグローバルモデルを学び、同時にユーザとセンタ間の最適なマッチングを導出する。
ベンチマークデータセットによる実験結果から,本手法はいくつかの一般的なフェデレーション学習法より優れていることが示された。
論文 参考訳(メタデータ) (2020-05-03T09:14:31Z) - Overcoming Noisy and Irrelevant Data in Federated Learning [13.963024590508038]
フェデレーション学習は、クライアントデバイスが収集したローカルデータから、機械学習モデルを分散的にトレーニングする効果的な方法である。
そこで我々は,小さなベンチマークデータセットに基づいてトレーニングされたベンチマークモデルを用いて,関連するデータを分散的に選択する手法を提案する。
提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,複数の実世界の画像データセット上で評価される。
論文 参考訳(メタデータ) (2020-01-22T22:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。