論文の概要: Can Retriever-Augmented Language Models Reason? The Blame Game Between
the Retriever and the Language Model
- arxiv url: http://arxiv.org/abs/2212.09146v3
- Date: Thu, 2 Nov 2023 19:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 18:32:13.003190
- Title: Can Retriever-Augmented Language Models Reason? The Blame Game Between
the Retriever and the Language Model
- Title(参考訳): Retriever-Augmented Language Modelsは理にかなっているか?
レトリバーと言語モデルの間の非難ゲーム
- Authors: Parishad BehnamGhader, Santiago Miret, Siva Reddy
- Abstract要約: 事前訓練された言語モデルをレトリバーで拡張することは、共通のNLP問題を効果的に解決する可能性を示している。
我々は,一般的な検索言語モデルであるkNN-LM,REALM,DPR+FiD,Contriever+ATLAS,Contriever+Flan-T5の長所と短所を評価する。
- 参考スコア(独自算出の注目度): 33.729248437727634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmenting pretrained language models with retrievers has shown promise in
effectively solving common NLP problems, such as language modeling and question
answering. In this paper, we evaluate the strengths and weaknesses of popular
retriever-augmented language models, namely kNN-LM, REALM, DPR + FiD,
Contriever + ATLAS, and Contriever + Flan-T5, in reasoning over retrieved
statements across different tasks. Our findings indicate that the simple
similarity metric employed by retrievers is insufficient for retrieving all the
necessary statements for reasoning. Additionally, the language models do not
exhibit strong reasoning even when provided with only the required statements.
Furthermore, when combined with imperfect retrievers, the performance of the
language models becomes even worse, e.g., Flan-T5's performance drops by 28.6%
when retrieving 5 statements using Contriever. While larger language models
improve performance, there is still a substantial room for enhancement. Our
further analysis indicates that multihop retrieve-and-read is promising for
large language models like GPT-3.5, but does not generalize to other language
models like Flan-T5-xxl.
- Abstract(参考訳): 言語モデリングや質問応答など,一般的なNLP問題を効果的に解決する上で,事前訓練された言語モデルをレトリバーで拡張することが期待されている。
本稿では,一般的な検索言語モデル(kNN-LM, REALM, DPR + FiD, Contriever + ATLAS, Contriever + Flan-T5)の長所と短所を,異なるタスクにまたがる検索文を推論して評価する。
以上の結果から,レトリバーが使用する単純な類似度指標は,推論に必要な全ての文を検索するには不十分であることが示唆された。
さらに、言語モデルは、必要なステートメントのみを提供する場合でも、強い推論を示さない。
さらに、不完全なレトリバーと組み合わせると、contrieverを使って5つのステートメントを取得すると、flan-t5のパフォーマンスが28.6%低下するなど、言語モデルのパフォーマンスはさらに悪化する。
大きな言語モデルではパフォーマンスが向上しますが、拡張の余地はまだあります。
さらに分析した結果,マルチホップ検索は GPT-3.5 のような大規模言語モデルに対して有望であるが,Flan-T5-xxl のような他の言語モデルには一般化されないことがわかった。
関連論文リスト
- Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken
Language Understanding [13.352795145385645]
大規模な事前訓練された言語モデルは、強力な言語理解能力を示している。
複数のベンチマークで異なるサイズのChatGPTやOPTなどのモデルを評価した。
しかし、スロットフィリングではモデルが悪化し、その性能はASR誤差に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-22T21:59:26Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - REPLUG: Retrieval-Augmented Black-Box Language Models [101.60145719119373]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。
その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-30T04:18:09Z) - Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks [39.39138995087475]
言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。
本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
論文 参考訳(メタデータ) (2022-05-11T18:14:33Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。