論文の概要: Overview of the TREC 2019 deep learning track
- arxiv url: http://arxiv.org/abs/2003.07820v2
- Date: Wed, 18 Mar 2020 16:56:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 20:44:41.789676
- Title: Overview of the TREC 2019 deep learning track
- Title(参考訳): TREC 2019ディープラーニングトラックの概要
- Authors: Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Daniel Campos, Ellen M.
Voorhees
- Abstract要約: Deep Learning TrackはTREC 2019の新しいトラックで、大規模データ体制におけるアドホックランキングの研究を目的としている。
大規模な人間ラベルのトレーニングセットを備えた最初のトラックであり、2つのタスクに対応する2つのセットを導入している。
今年、15のグループは、ディープラーニング、トランスファーラーニング、伝統的なIRランキング手法の様々な組み合わせを使用して、合計75のランを提出した。
- 参考スコア(独自算出の注目度): 36.23357487158591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Deep Learning Track is a new track for TREC 2019, with the goal of
studying ad hoc ranking in a large data regime. It is the first track with
large human-labeled training sets, introducing two sets corresponding to two
tasks, each with rigorous TREC-style blind evaluation and reusable test sets.
The document retrieval task has a corpus of 3.2 million documents with 367
thousand training queries, for which we generate a reusable test set of 43
queries. The passage retrieval task has a corpus of 8.8 million passages with
503 thousand training queries, for which we generate a reusable test set of 43
queries. This year 15 groups submitted a total of 75 runs, using various
combinations of deep learning, transfer learning and traditional IR ranking
methods. Deep learning runs significantly outperformed traditional IR runs.
Possible explanations for this result are that we introduced large training
data and we included deep models trained on such data in our judging pools,
whereas some past studies did not have such training data or pooling.
- Abstract(参考訳): Deep Learning TrackはTREC 2019の新しいトラックで、大規模データ体制におけるアドホックランキングの研究を目的としている。
2つのタスクに対応する2つのセットを導入し、それぞれに厳格なTRECスタイルのブラインド評価と再利用可能なテストセットがある。
文書検索タスクには320万のドキュメントと367万のトレーニングクエリからなるコーパスがあり、43のクエリで再利用可能なテストセットを生成する。
パス検索タスクは880万のパスと503万のトレーニングクエリからなるコーパスを持ち、43のクエリの再利用テストセットを生成する。
今年、15のグループは、ディープラーニング、転送学習、従来のirランキング手法のさまざまな組み合わせを使用して、合計75のランを提出した。
ディープラーニングは従来のir実行を大きく上回っている。
この結果から,大規模なトレーニングデータを導入し,評価プールにトレーニングした深層モデルを含めることができたが,過去の研究ではそのようなトレーニングデータやプールは存在しなかった。
関連論文リスト
- Data Efficient Acoustic Scene Classification using Teacher-Informed Confusing Class Instruction [11.15868814062321]
異なるサイズのトレーニング分割に取り組むために、3つのシステムが導入されている。
小規模なトレーニング分割のために,提案するベースラインモデルの複雑さを低減し,ベースチャネルの数を減少させることを検討した。
より大きなトレーニング分割のために、FocusNetを使用して、複数のPatchout faSt Spectrogram Transformer(PaSST)モデルと、元のサンプリングレート44.1kHzでトレーニングされたベースラインモデルのアンサンブルに、混乱したクラス情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T13:16:00Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Task-aware Retrieval with Instructions [91.87694020194316]
そこで本研究では,検索システムのユーザがクエリとともに意図を明示的に記述する,命令による検索の問題について検討する。
本稿では,多様な検索タスクを指示で訓練したマルチタスク検索システムTARTを提案する。
TARTは命令を通じて新しいタスクに適応する強力な能力を示し、2つのゼロショット検索ベンチマークでテクニックの状態を向上する。
論文 参考訳(メタデータ) (2022-11-16T23:13:22Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Large Scale Real-World Multi-Person Tracking [68.27438015329807]
本稿では,新しい大規模多人数追跡データセットであるtexttPersonPath22を提案する。
MOT17、HiEve、MOT20などの高品質なマルチオブジェクト追跡データセットよりも桁違いに大きい。
論文 参考訳(メタデータ) (2022-11-03T23:03:13Z) - TREC Deep Learning Track: Reusable Test Collections in the Large Data
Regime [33.202007333667375]
本稿では,TREC DLテストコレクションの再利用を3つの方法で支援する。
まず、データセットを詳細に記述し、明確に文書化し、それ以外はトラックガイドラインに散らばっているいくつかの詳細を記述します。
第2に,データセットを再利用する場合,反復や選択バイアスのリスクがあるため,trac dlデータを用いた論文作成のベストプラクティスを過大評価することなく記述する。
論文 参考訳(メタデータ) (2021-04-19T15:41:28Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z) - Overview of the TREC 2020 deep learning track [30.531644711518414]
今年は文書検索タスクとパス検索タスクがあり、それぞれに何十万もの人手によるトレーニングクエリがあります。
我々は,シングルショットTRECスタイルの評価を用いて評価を行い,大規模データを利用できる場合にどのランキング手法が最適かを示す。
今年はさらに、BERTスタイルの事前トレーニングを持つランク付け者が、大規模なデータ体制における他のランク付けよりも優れているという証拠があります。
論文 参考訳(メタデータ) (2021-02-15T16:47:00Z) - TREC CAsT 2019: The Conversational Assistance Track Overview [34.65827453762031]
Conversational Assistance Track (CAsT) は、CIS(Conversational Information Seeking)研究を促進するためのTREC 2019の新しいトラックである。
ドキュメントコーパスは、TREC Complex Answer Retrieval (CAR)とMicrosoft MAchine Reading COmprehension (MARCO)データセットから38,426,252パスである。
今年は、対話型クエリ理解とランキングのための様々な方法を使用して、合計65のランを提出した。
論文 参考訳(メタデータ) (2020-03-30T16:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。