論文の概要: BERT Rankers are Brittle: a Study using Adversarial Document
Perturbations
- arxiv url: http://arxiv.org/abs/2206.11724v1
- Date: Thu, 23 Jun 2022 14:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 17:24:06.870170
- Title: BERT Rankers are Brittle: a Study using Adversarial Document
Perturbations
- Title(参考訳): BERTランキングは弱く、敵対的文書摂動を用いた研究
- Authors: Yumeng Wang, Lijun Lyu, Avishek Anand
- Abstract要約: BERTに基づくコンテキストランキングモデルは、幅広いパスと文書ランキングタスクに対して十分に確立されている。
我々は、BERT-rankersは、検索された文書をターゲットとした敵攻撃には無害であると主張している。
- 参考スコア(独自算出の注目度): 3.6704226968275258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual ranking models based on BERT are now well established for a wide
range of passage and document ranking tasks. However, the robustness of
BERT-based ranking models under adversarial inputs is under-explored. In this
paper, we argue that BERT-rankers are not immune to adversarial attacks
targeting retrieved documents given a query. Firstly, we propose algorithms for
adversarial perturbation of both highly relevant and non-relevant documents
using gradient-based optimization methods. The aim of our algorithms is to
add/replace a small number of tokens to a highly relevant or non-relevant
document to cause a large rank demotion or promotion. Our experiments show that
a small number of tokens can already result in a large change in the rank of a
document. Moreover, we find that BERT-rankers heavily rely on the document
start/head for relevance prediction, making the initial part of the document
more susceptible to adversarial attacks. More interestingly, we find a small
set of recurring adversarial words that when added to documents result in
successful rank demotion/promotion of any relevant/non-relevant document
respectively. Finally, our adversarial tokens also show particular topic
preferences within and across datasets, exposing potential biases from BERT
pre-training or downstream datasets.
- Abstract(参考訳): BERTに基づくコンテキストランキングモデルは現在、幅広いパスと文書ランキングタスクのために十分に確立されている。
しかし, 逆入力によるBERTに基づくランキングモデルの堅牢性は低い。
本稿では,検索した文書を対象とする敵攻撃に対して,BERT-rankersは無害である,と論じる。
まず, 勾配に基づく最適化手法を用いて, 関連性の高い文書, 非関連文書の逆摂動アルゴリズムを提案する。
我々のアルゴリズムの目的は、少数のトークンを関連性の高い文書や非関連文書に追加/置換することで、大きなランクの低下や昇進を引き起こすことである。
私たちの実験では、少数のトークンがドキュメントのランクに大きな変化をもたらす可能性があることを示しています。
さらに, bert-rankers は, 相関予測に文書の開始/先頭に大きく依存しており, 文書の最初の部分は敵の攻撃の影響を受けやすいことがわかった。
より興味深いことに、文書に付加された場合、関連文書や非関連文書のランク降下/プロモージョンが成功するような、連続する敵語の小さなセットが見つかる。
最後に、当社の敵トークンはデータセット内の特定のトピックの好みを示し、BERT事前トレーニングまたは下流データセットの潜在的なバイアスを露呈します。
関連論文リスト
- Generating Natural Language Queries for More Effective Systematic Review
Screening Prioritisation [53.77226503675752]
現在の技術状況では、レビューの最終タイトルをクエリとして、BERTベースのニューラルランクラを使用してドキュメントのランク付けに使用しています。
本稿では,ChatGPT や Alpaca などの命令ベース大規模言語モデルによって生成される文書の検索に使用される Boolean クエリやクエリなど,スクリーニングを優先するクエリの代替源について検討する。
私たちのベストアプローチは、スクリーニング時に利用可能な情報に基づいて実現されるだけでなく、最終タイトルと同じような効果があります。
論文 参考訳(メタデータ) (2023-09-11T05:12:14Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Shuffle & Divide: Contrastive Learning for Long Text [6.187839874846451]
コントラスト学習に基づく長文文書の自己教師型学習手法を提案する。
我々の手法の鍵は、単純なテキスト拡張アルゴリズムであるShuffle and Divide (SaD)である。
我々は、20のニュースグループ、Reuters-21578、BBC、BBCSportのデータセットで教師なしテキスト分類を行うことにより、我々の手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-04-19T02:02:29Z) - Open Domain Multi-document Summarization: A Comprehensive Study of Model
Brittleness under Retrieval [42.73076855699184]
マルチドキュメント要約(MDS)は、一連のトピック関連の文書が入力として提供されると仮定する。
タスクを形式化し、既存のデータセット、レトリバー、要約器を使ってブートストラップすることで、より困難な設定について研究する。
論文 参考訳(メタデータ) (2022-12-20T18:41:38Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Fine-Grained Relevance Annotations for Multi-Task Document Ranking and
Question Answering [9.480648914353035]
本稿では,Fine-Grained Relevancesの新たなデータセットであるFiRAを紹介する。
TREC 2019のディープ・ラーニング・トラックのランク付けされた検索アノテーションは、すべての関連文書のパスレベルとワードグレードの関連アノテーションで拡張する。
例えば、最近導入されたTKL文書ランキングモデルを評価し、TKLは長い文書に対して最先端の検索結果を示すが、多くの関連項目を見逃している。
論文 参考訳(メタデータ) (2020-08-12T14:59:50Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。