論文の概要: Diagnosing BERT with Retrieval Heuristics
- arxiv url: http://arxiv.org/abs/2201.04458v1
- Date: Wed, 12 Jan 2022 13:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 17:45:48.333755
- Title: Diagnosing BERT with Retrieval Heuristics
- Title(参考訳): 検索ヒューリスティックスを用いたBERTの診断
- Authors: Arthur C\^amara, Claudia Hauff
- Abstract要約: バニラBERT」は、既存の検索アルゴリズムよりも広いマージンで優れていることが示されている。
本稿では,最近提案された公理的データセット解析手法を用いる。
BERTは、最近リリースされた大規模Webコーパスにアドホックなトピックを適用すれば、どの公理にも従わないことが分かる。
- 参考スコア(独自算出の注目度): 8.299945169799793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings, made widely popular in 2013 with the release of word2vec,
have become a mainstay of NLP engineering pipelines. Recently, with the release
of BERT, word embeddings have moved from the term-based embedding space to the
contextual embedding space -- each term is no longer represented by a single
low-dimensional vector but instead each term and \emph{its context} determine
the vector weights. BERT's setup and architecture have been shown to be general
enough to be applicable to many natural language tasks. Importantly for
Information Retrieval (IR), in contrast to prior deep learning solutions to IR
problems which required significant tuning of neural net architectures and
training regimes, "vanilla BERT" has been shown to outperform existing
retrieval algorithms by a wide margin, including on tasks and corpora that have
long resisted retrieval effectiveness gains over traditional IR baselines (such
as Robust04). In this paper, we employ the recently proposed axiomatic dataset
analysis technique -- that is, we create diagnostic datasets that each fulfil a
retrieval heuristic (both term matching and semantic-based) -- to explore what
BERT is able to learn. In contrast to our expectations, we find BERT, when
applied to a recently released large-scale web corpus with ad-hoc topics, to
\emph{not} adhere to any of the explored axioms. At the same time, BERT
outperforms the traditional query likelihood retrieval model by 40\%. This
means that the axiomatic approach to IR (and its extension of diagnostic
datasets created for retrieval heuristics) may in its current form not be
applicable to large-scale corpora. Additional -- different -- axioms are
needed.
- Abstract(参考訳): Word2vecのリリースで2013年に広く普及したワード埋め込みは、NLPエンジニアリングパイプラインのメインステイとなっている。
近年、bert のリリースにより、単語埋め込みは項ベースの埋め込み空間から文脈埋め込み空間へと移行した -- 各項はもはや単一の低次元ベクトルで表されるのではなく、代わりに各項と \emph{its context} がベクトル重みを決定する。
BERTのセットアップとアーキテクチャは、多くの自然言語タスクに適用できるほど一般的なものであることが示されている。
Information Retrieval (IR)では、ニューラルネットワークアーキテクチャやトレーニング体制の大幅なチューニングを必要とするIR問題に対する事前のディープラーニングソリューションとは対照的に、"vanilla BERT"は、従来のIRベースライン(Robust04など)よりも長い抵抗のあったタスクやコーパスを含む、既存の検索アルゴリズムよりはるかに優れていることが示されている。
本稿では,最近提案されているアクシオマティックデータセット解析手法 -- を用いて,検索ヒューリスティック(項マッチングと意味ベースの両方)を生成する診断データセットを作成し,bertが学べるものを探索する。
私たちの期待とは対照的に、最近リリースされたアドホックなトピックを持つ大規模webコーパスに適用されたbertは、探究された公理のいずれかに準拠する。
同時に、bert は従来のクエリの適性検索モデルを 40\% で上回っている。
これは、IRに対する公理的アプローチ(および検索ヒューリスティックスのために作成された診断データセットの拡張)が、現在の形式では大規模コーパスには適用できないことを意味する。
追加 -- 異なる -- 公理が必要である。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Utilizing BERT for Information Retrieval: Survey, Applications,
Resources, and Challenges [4.588192657854766]
本調査は、情報検索(IR)にBERTのような事前訓練されたトランスフォーマーエンコーダを適用するアプローチに焦点を当てる。
i) 長文処理, (ii) 意味情報の統合, (iii) 有効性と効率のバランス, (iv) 用語の重み付け予測, (v) クエリ拡張, (vi) 文書拡張の6つの高レベルカテゴリに分類した。
特定のタスクに対して、細かな調整されたBERTエンコーダは依然としてパフォーマンスが良く、デプロイメントコストも低いことが分かりました。
論文 参考訳(メタデータ) (2024-02-18T23:22:40Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Augmented Embeddings for Custom Retrievals [13.773007276544913]
本稿では,タスク固有性,異種性,厳密な検索を実現するための埋め込み変換機構であるAdapted Dense Retrievalを紹介する。
Dense Retrievalは、事前訓練されたブラックボックス埋め込みの低ランク残差適応を学習することで機能する。
論文 参考訳(メタデータ) (2023-10-09T03:29:35Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Hierarchical Neural Network Approaches for Long Document Classification [3.6700088931938835]
我々は、より効率的な表現を効率よく捉えるために、事前訓練された普遍文(USE)と変換器からの双方向表現(BERT)を階層的に採用する。
提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。
USE + CNN/LSTM はスタンドアローンのベースラインよりも優れており、BERT + CNN/LSTM はスタンドアローンのベースラインと同等である。
論文 参考訳(メタデータ) (2022-01-18T07:17:40Z) - Maps Search Misspelling Detection Leveraging Domain-Augmented Contextual
Representations [4.619541348328937]
独立したミススペル検出器を構築して修正する前に提供することで、スペルやその他の検索コンポーネントに多くのメリットをもたらすことができる。
深層学習の急速な発展とBERTologyのような文脈表現学習の大幅な進歩により、ノイズチャネルアーキテクチャに関連する手作りの機能を必要とせずに、まともなミススペル検出器を構築することは、より使いやすくなっている。
本稿では,最も基本的なLSTMから単一ドメイン拡張細調整BERTまで,ミススペル検出のためのモデルの4段階を設計する。
論文 参考訳(メタデータ) (2021-08-15T23:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。