論文の概要: Utilizing BERT for Information Retrieval: Survey, Applications,
Resources, and Challenges
- arxiv url: http://arxiv.org/abs/2403.00784v1
- Date: Sun, 18 Feb 2024 23:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 00:09:22.457620
- Title: Utilizing BERT for Information Retrieval: Survey, Applications,
Resources, and Challenges
- Title(参考訳): 情報検索におけるBERTの利用:調査,応用,資源,課題
- Authors: Jiajia Wang, Jimmy X. Huang, Xinhui Tu, Junmei Wang, Angela J. Huang,
Md Tahmid Rahman Laskar, Amran Bhuiyan
- Abstract要約: 本調査は、情報検索(IR)にBERTのような事前訓練されたトランスフォーマーエンコーダを適用するアプローチに焦点を当てる。
i) 長文処理, (ii) 意味情報の統合, (iii) 有効性と効率のバランス, (iv) 用語の重み付け予測, (v) クエリ拡張, (vi) 文書拡張の6つの高レベルカテゴリに分類した。
特定のタスクに対して、細かな調整されたBERTエンコーダは依然としてパフォーマンスが良く、デプロイメントコストも低いことが分かりました。
- 参考スコア(独自算出の注目度): 4.588192657854766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed a substantial increase in the use of deep
learning to solve various natural language processing (NLP) problems. Early
deep learning models were constrained by their sequential or unidirectional
nature, such that they struggled to capture the contextual relationships across
text inputs. The introduction of bidirectional encoder representations from
transformers (BERT) leads to a robust encoder for the transformer model that
can understand the broader context and deliver state-of-the-art performance
across various NLP tasks. This has inspired researchers and practitioners to
apply BERT to practical problems, such as information retrieval (IR). A survey
that focuses on a comprehensive analysis of prevalent approaches that apply
pretrained transformer encoders like BERT to IR can thus be useful for academia
and the industry. In light of this, we revisit a variety of BERT-based methods
in this survey, cover a wide range of techniques of IR, and group them into six
high-level categories: (i) handling long documents, (ii) integrating semantic
information, (iii) balancing effectiveness and efficiency, (iv) predicting the
weights of terms, (v) query expansion, and (vi) document expansion. We also
provide links to resources, including datasets and toolkits, for BERT-based IR
systems. A key highlight of our survey is the comparison between BERT's
encoder-based models and the latest generative Large Language Models (LLMs),
such as ChatGPT, which rely on decoders. Despite the popularity of LLMs, we
find that for specific tasks, finely tuned BERT encoders still outperform, and
at a lower deployment cost. Finally, we summarize the comprehensive outcomes of
the survey and suggest directions for future research in the area.
- Abstract(参考訳): 近年では、さまざまな自然言語処理(nlp)問題を解決するためのディープラーニングの利用が大幅に増加している。
初期のディープラーニングモデルは、テキスト入力間の文脈的関係を捉えるのに苦労するなど、逐次的あるいは一方向的な性質によって制約されていた。
変換器(BERT)からの双方向エンコーダ表現の導入は、より広いコンテキストを理解し、様々なNLPタスクに対して最先端のパフォーマンスを提供することができるトランスフォーマーモデルの堅牢なエンコーダをもたらす。
これは、研究者や実践者が情報検索(IR)のような実践的な問題にBERTを適用するきっかけとなった。
BERTのような事前訓練されたトランスフォーマーエンコーダをIRに適用する一般的なアプローチの包括的分析に焦点を当てた調査は、学術や産業にとって有用である。
これを踏まえ、この調査では様々なBERTベースの手法を再検討し、IRの幅広い手法を網羅し、それらを6つのハイレベルカテゴリに分類する。
(i)長い文書を扱うこと。
(ii)意味情報の統合
(iii)有効性と効率のバランスをとること。
(四)項の重みを予測すること。
(v)クエリ拡張、および
(vi)文書拡張。
また、BERTベースのIRシステムのためのデータセットやツールキットを含むリソースへのリンクも提供します。
この調査の重要な点は、bertのエンコーダベースのモデルと、デコーダに依存するchatgptのような最新の生成型大規模言語モデル(llm)の比較である。
LLMの人気にもかかわらず、特定のタスクに対して細調整されたBERTエンコーダは依然として性能が良く、デプロイコストも低い。
最後に,調査の総合的な成果を要約し,今後の研究の方向性を提案する。
関連論文リスト
- Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation [92.75908003533736]
本稿では,自己教師型入力表現を用いたフレームワークレベルの頑健なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-04-16T16:19:47Z) - Diagnosing BERT with Retrieval Heuristics [8.299945169799793]
バニラBERT」は、既存の検索アルゴリズムよりも広いマージンで優れていることが示されている。
本稿では,最近提案された公理的データセット解析手法を用いる。
BERTは、最近リリースされた大規模Webコーパスにアドホックなトピックを適用すれば、どの公理にも従わないことが分かる。
論文 参考訳(メタデータ) (2022-01-12T13:11:17Z) - Transferring BERT-like Transformers' Knowledge for Authorship
Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:57:29Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z) - What BERT Sees: Cross-Modal Transfer for Visual Question Generation [21.640299110619384]
補足データを用いた事前学習を回避して,BERTのアウト・オブ・ザ・ボックスの視覚能力について検討した。
テキスト生成のためのBERTベースのアーキテクチャであるBERT-genを導入する。
論文 参考訳(メタデータ) (2020-02-25T12:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。