論文の概要: Large language models can accurately predict searcher preferences
- arxiv url: http://arxiv.org/abs/2309.10621v3
- Date: Thu, 16 May 2024 21:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 20:33:24.137924
- Title: Large language models can accurately predict searcher preferences
- Title(参考訳): 大規模言語モデルは検索者の好みを正確に予測できる
- Authors: Paul Thomas, Seth Spielman, Nick Craswell, Bhaskar Mitra,
- Abstract要約: 本稿では,ラベルの品質向上のための代替手法を提案する。
実際のユーザーからの注意深いフィードバックが受けられる。これは定義上、高品質のファースト・パーティ・ゴールド・データだ。
大規模な言語モデルは、人間のラベルラーと同じくらいの精度で有効であることがわかった。
- 参考スコア(独自算出の注目度): 12.134907765184572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relevance labels, which indicate whether a search result is valuable to a searcher, are key to evaluating and optimising search systems. The best way to capture the true preferences of users is to ask them for their careful feedback on which results would be useful, but this approach does not scale to produce a large number of labels. Getting relevance labels at scale is usually done with third-party labellers, who judge on behalf of the user, but there is a risk of low-quality data if the labeller doesn't understand user needs. To improve quality, one standard approach is to study real users through interviews, user studies and direct feedback, find areas where labels are systematically disagreeing with users, then educate labellers about user needs through judging guidelines, training and monitoring. This paper introduces an alternate approach for improving label quality. It takes careful feedback from real users, which by definition is the highest-quality first-party gold data that can be derived, and develops an large language model prompt that agrees with that data. We present ideas and observations from deploying language models for large-scale relevance labelling at Bing, and illustrate with data from TREC. We have found large language models can be effective, with accuracy as good as human labellers and similar capability to pick the hardest queries, best runs, and best groups. Systematic changes to the prompts make a difference in accuracy, but so too do simple paraphrases. To measure agreement with real searchers needs high-quality "gold" labels, but with these we find that models produce better labels than third-party workers, for a fraction of the cost, and these labels let us train notably better rankers.
- Abstract(参考訳): 検索結果が検索者にとって価値があるかどうかを示す関連ラベルは、検索システムの評価と最適化の鍵となる。
ユーザの真の好みを捉える最善の方法は、どの結果が有用か、慎重にフィードバックを求めることですが、このアプローチは多数のラベルを生成するためにスケールしません。
関連ラベルの大規模取得は通常,ユーザに代わって判断するサードパーティのラベルラによって行われるが,ラベルラがユーザニーズを理解していない場合,低品質なデータが発生するリスクがある。
品質向上のためには,インタビューやユーザスタディ,直接的なフィードバックを通じて実際のユーザを調査し,ラベルがユーザと体系的に意見の一致しない領域を見つけ,ガイドラインやトレーニング,監視を通じて,ユーザニーズに関するラベルラを教育する,というアプローチが一般的である。
本稿では,ラベルの品質向上のための代替手法を提案する。
定義上は、導出可能な高品質なサードパーティ製ゴールドデータであり、そのデータに一致する大きな言語モデルプロンプトを開発する。
我々は,Bingにおける大規模レバレンスラベリングのための言語モデルの展開からアイデアと観察を行い,TRECのデータで説明する。
大規模な言語モデルは、人間のラベルラーと同じくらい正確で、最も難しいクエリやベストラン、ベストグループを選択するのに類似した能力で有効であることがわかった。
プロンプトの体系的な変化は精度に違いをもたらすが、単純な言い換えもできる。
実際の検索者との合意を測るためには、高品質な「ゴールド」ラベルが必要ですが、これらのモデルでは、コストのごく一部で、サードパーティの作業者よりも優れたラベルを生成することが分かりました。
関連論文リスト
- Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - How many labelers do you have? A closer look at gold-standard labels [10.637125300701795]
我々は、非集約ラベル情報へのアクセスによって、ゴールドスタンダードラベルよりも、トレーニングの適格化がより実現可能であることを示す。
我々は,非アグリゲートラベルが学習性能を改善することを含む,実世界のデータセットの予測を行う。
論文 参考訳(メタデータ) (2022-06-24T02:33:50Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Confident in the Crowd: Bayesian Inference to Improve Data Labelling in
Crowdsourcing [0.30458514384586394]
我々は,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。
本稿では,ベイズ推定などのより洗練された手法を用いてラベルラの性能を計測する。
提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。
論文 参考訳(メタデータ) (2021-05-28T17:09:45Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking [2.1930130356902207]
クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-02-11T08:12:44Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Exploiting Context for Robustness to Label Noise in Active Learning [47.341705184013804]
本稿では,どのラベルが間違っているのかをシステムがどのように識別するか,ラベルノイズの負の影響を最小限に抑えるために,マルチクラスアクティブラーニングシステムをどのように適用できるか,といった課題に対処する。
我々は、これらの関係を符号化し、ノイズラベルが利用できる場合にグラフ上の新しい信念を得るために、ラベルなしデータのグラフィカルな表現を構築した。
これはシーン分類、アクティビティ分類、文書分類の3つの異なる応用で実証されている。
論文 参考訳(メタデータ) (2020-10-18T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。