論文の概要: MS MARCO: Benchmarking Ranking Models in the Large-Data Regime
- arxiv url: http://arxiv.org/abs/2105.04021v1
- Date: Sun, 9 May 2021 20:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:10:36.321537
- Title: MS MARCO: Benchmarking Ranking Models in the Large-Data Regime
- Title(参考訳): MS MARCO: 大規模データレジームにおけるランキングモデルのベンチマーク
- Authors: Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Daniel Campos and Jimmy
Lin
- Abstract要約: 本稿では,MS MARCO と TREC Deep Learning Track をケーススタディとして用いた。
評価の取り組みの設計が、特定の成果を奨励または阻止する方法を示します。
我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
- 参考スコア(独自算出の注目度): 57.37239054770001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation efforts such as TREC, CLEF, NTCIR and FIRE, alongside public
leaderboard such as MS MARCO, are intended to encourage research and track our
progress, addressing big questions in our field. However, the goal is not
simply to identify which run is "best", achieving the top score. The goal is to
move the field forward by developing new robust techniques, that work in many
different settings, and are adopted in research and practice. This paper uses
the MS MARCO and TREC Deep Learning Track as our case study, comparing it to
the case of TREC ad hoc ranking in the 1990s. We show how the design of the
evaluation effort can encourage or discourage certain outcomes, and raising
questions about internal and external validity of results. We provide some
analysis of certain pitfalls, and a statement of best practices for avoiding
such pitfalls. We summarize the progress of the effort so far, and describe our
desired end state of "robust usefulness", along with steps that might be
required to get us there.
- Abstract(参考訳): TREC,CLEF,NTCIR,FIREなどの評価活動とMS MARCOのような公共のリーダーボードは,研究の促進と進捗の追跡を目的としており,我々の分野における大きな疑問に対処している。
しかし、ゴールは単にどのランがベストかを特定することではなく、トップスコアを達成することである。
目標は、さまざまな環境で機能し、研究や実践で採用される、新しい堅牢な技術を開発することによって、分野を前進させることだ。
本稿では,MS MARCO と TREC Deep Learning Track を事例として,1990年代の TREC アドホックランキングと比較した。
評価の取り組みのデザインは、ある成果を奨励または阻止し、結果の内部的および外部的妥当性に関する疑問を提起する。
我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
これまでの取り組みの進捗状況を要約し、望まれる“ロバストな有用性”の最後状態と、私たちをそこに導くために必要なステップについて説明する。
関連論文リスト
- Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Goal-Reaching Policy Learning from Non-Expert Observations via Effective Subgoal Guidance [46.8322564551124]
本稿では,新たなサブゴナルガイダンス学習戦略を提案する。
拡散戦略に基づくハイレベルポリシーを開発し、適切なサブゴールをウェイポイントとして生成する。
複雑なロボットナビゲーションと操作タスクについて評価する。
論文 参考訳(メタデータ) (2024-09-06T02:49:12Z) - Dispelling the Mirage of Progress in Offline MARL through Standardised Baselines and Evaluation [3.5490824406092405]
オフラインマルチエージェント強化学習(MARL)は、現実世界のアプリケーションに非常に有望な新興分野である。
オフラインMARLの研究の現状は、ベースラインと評価プロトコルの不整合に悩まされている。
論文 参考訳(メタデータ) (2024-06-13T12:54:29Z) - A Survey on Deep Active Learning: Recent Advances and New Frontiers [27.07154361976248]
この研究は、ディープラーニングに基づくアクティブラーニング(DAL)の難しさを克服する上で、研究者にとって有用かつ迅速なガイドとなることを目的としている。
この手法は適用可能性の広さから人気が高まりつつあるが、特にディープラーニングに基づくアクティブラーニング(DAL)に関する調査論文は乏しいままである。
論文 参考訳(メタデータ) (2024-05-01T05:54:33Z) - How much can change in a year? Revisiting Evaluation in Multi-Agent
Reinforcement Learning [4.653136482223517]
我々は、MARLの出版物にメタデータを組み込むことにより、これまで公表されていた評価手法のデータベースを拡張した。
この更新されたデータベースから抽出した結果と,研究で確認された傾向を比較した。
SMAC-v1は,SMAC-v2に継続することで,新たなアルゴリズム開発が促進される。
論文 参考訳(メタデータ) (2023-12-13T19:06:34Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Towards a Standardised Performance Evaluation Protocol for Cooperative
MARL [2.2977300225306583]
マルチエージェント強化学習(MARL)は,分散型意思決定問題を大規模に解く上で有用な手法である。
本研究は,MARLにおける大規模研究機関にまたがる評価手法に焦点をあてて,この迅速な開発についてより詳しく考察する。
協調型MARLのための標準化された性能評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-09-21T16:40:03Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。