論文の概要: The Web Is Your Oyster -- Knowledge-Intensive NLP against a Very Large
Web Corpus
- arxiv url: http://arxiv.org/abs/2112.09924v1
- Date: Sat, 18 Dec 2021 13:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 14:31:29.425893
- Title: The Web Is Your Oyster -- Knowledge-Intensive NLP against a Very Large
Web Corpus
- Title(参考訳): webはあなたのカキ -- 非常に大きなwebコーパスに対する知識集約的なnlp
- Authors: Aleksandra Piktus and Fabio Petroni and Vladimir Karpukhin and Dmytro
Okhonko and Samuel Broscheit and Gautier Izacard and Patrick Lewis and Barlas
O\u{g}uz and Edouard Grave and Wen-tau Yih and Sebastian Riedel
- Abstract要約: 我々は,既存のKI-NLPタスクを評価するための新しいセットアップを提案し,背景コーパスをユニバーサルなWebスナップショットに一般化する。
当初Wikipediaで開発された標準のKI-NLPベンチマークであるKILTを再利用し,CCNetのサブセットであるSphere corpusの使用をシステムに依頼した。
カバー範囲の潜在的なギャップ、スケールの課題、構造の欠如、品質の低下にもかかわらず、Sphereからの検索によって、最新の最先端のシステムがウィキペディアベースのモデルに適合し、さらに優れています。
- 参考スコア(独自算出の注目度): 76.9522248303716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to address the increasing demands of real-world applications, the
research for knowledge-intensive NLP (KI-NLP) should advance by capturing the
challenges of a truly open-domain environment: web scale knowledge, lack of
structure, inconsistent quality, and noise. To this end, we propose a new setup
for evaluating existing KI-NLP tasks in which we generalize the background
corpus to a universal web snapshot. We repurpose KILT, a standard KI-NLP
benchmark initially developed for Wikipedia, and ask systems to use a subset of
CCNet - the Sphere corpus - as a knowledge source. In contrast to Wikipedia,
Sphere is orders of magnitude larger and better reflects the full diversity of
knowledge on the Internet. We find that despite potential gaps of coverage,
challenges of scale, lack of structure and lower quality, retrieval from Sphere
enables a state-of-the-art retrieve-and-read system to match and even
outperform Wikipedia-based models on several KILT tasks - even if we
aggressively filter content that looks like Wikipedia. We also observe that
while a single dense passage index over Wikipedia can outperform a sparse BM25
version, on Sphere this is not yet possible. To facilitate further research
into this area, and minimise the community's reliance on proprietary black box
search engines, we will share our indices, evaluation metrics and
infrastructure.
- Abstract(参考訳): 現実世界のアプリケーションのニーズの増加に対応するため,知識集約型NLP(KI-NLP)の研究は,Webスケールの知識,構造不足,一貫性のない品質,ノイズといった,真のオープンドメイン環境の課題を捉えて進めるべきである。
そこで本研究では,背景コーパスをユニバーサルウェブスナップショットに一般化した既存のki-nlpタスクを評価するための新しいセットアップを提案する。
当初Wikipediaで開発された標準のKI-NLPベンチマークであるKILTを再利用し、知識ソースとしてCCNetのサブセットであるSphere corpusを使用するようシステムに求めた。
wikipediaとは対照的に、sphereは桁違いに大きく、インターネット上の知識の完全な多様性を反映している。
カバレッジの潜在的なギャップ、スケールの課題、構造の欠如、品質の低下にもかかわらず、Sphereからの検索によって、最先端の検索・読み取りシステムが、いくつかのKILTタスクでWikipediaベースのモデルにマッチし、さらにパフォーマンスを向上することができる。
また、wikipedia上の1つの密閉通路インデックスは、sparse bm25バージョンを上回ることができるが、sphereでは、これはまだ不可能である。
この領域に関するさらなる研究を促進し、コミュニティのプロプライエタリなブラックボックス検索エンジンへの依存を最小限に抑えるために、私たちはインデックス、評価指標、インフラを共有します。
関連論文リスト
- Bidirectional Knowledge Reconfiguration for Lightweight Point Cloud
Analysis [74.00441177577295]
ポイントクラウド分析は計算システムのオーバーヘッドに直面し、モバイルやエッジデバイスでの利用を制限する。
本稿では,軽量点雲モデルのための特徴蒸留について検討する。
本研究では,教師から生徒への情報的文脈的知識を抽出するための双方向知識再構成を提案する。
論文 参考訳(メタデータ) (2023-10-08T11:32:50Z) - SOE-Net: A Self-Attention and Orientation Encoding Network for Point
Cloud based Place Recognition [50.9889997200743]
我々は、自己アテンション・指向性符号化ネットワーク(SOE-Net)を用いて、ポイントクラウドデータから位置認識する問題に取り組む。
SOE-Netは、ポイント間の関係を完全に探求し、長距離コンテキストをポイントワイドなローカル記述子に組み込む。
様々なベンチマークデータセットの実験では、現在の最先端アプローチよりも提案したネットワークの性能が優れていることが示されている。
論文 参考訳(メタデータ) (2020-11-24T22:28:25Z) - Revisiting Rainbow: Promoting more Insightful and Inclusive Deep
Reinforcement Learning Research [15.710674189908614]
我々は、コミュニティが大規模環境に重点を置いているにもかかわらず、伝統的な小規模環境は価値ある科学的洞察を与えることができると論じている。
我々はRainbowアルゴリズムを導入した論文を再検討し、Rainbowが使用するアルゴリズムに関するいくつかの新しい知見を提示する。
論文 参考訳(メタデータ) (2020-11-20T15:23:40Z) - Hierarchical Neural Architecture Search for Deep Stereo Matching [131.94481111956853]
本稿では, ディープステレオマッチングのための最初のエンドツーエンド階層型NASフレームワークを提案する。
我々のフレームワークは、タスク固有の人間の知識をニューラルアーキテクチャ検索フレームワークに組み込んでいる。
KITTI stereo 2012、2015、Middleburyベンチマークで1位、SceneFlowデータセットで1位にランクインしている。
論文 参考訳(メタデータ) (2020-10-26T11:57:37Z) - CLASS: Cross-Level Attention and Supervision for Salient Objects
Detection [10.01397180778694]
我々はCLASSという,高精度なSODのための新しいディープネットワークを提案する。
実験では、提案された CLA と CLS で、私たちの CLASS ネットは、5つのデータセットで13の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2020-09-23T03:10:12Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Is deeper better? It depends on locality of relevant features [5.33024001730262]
過パラメータ化方式における深さ増加の効果について検討する。
実験では、より深いラベルはローカルレーベルにとって、より浅いラベルはグローバルレーベルにとって、より優れていることが示されている。
ニューラルネットワークは、一般化性能の深さ依存性を正しく捉えていない。
論文 参考訳(メタデータ) (2020-05-26T02:44:18Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z) - Disentangling Trainability and Generalization in Deep Neural Networks [45.15453323967438]
我々は,ニューラルネットワークのトレーニング性と一般化のために,NTK(Neural Tangent Kernel)のスペクトルを分析した。
グローバル平均プールのないCNNはFCNとほぼ同じ挙動を示すが、プールを持つCNNは著しく異なり、しばしば一般化性能が向上している。
論文 参考訳(メタデータ) (2019-12-30T18:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。