論文の概要: Can Retriever-Augmented Language Models Reason? The Blame Game Between
the Retriever and the Language Model
- arxiv url: http://arxiv.org/abs/2212.09146v2
- Date: Sun, 7 May 2023 02:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:38:24.234177
- Title: Can Retriever-Augmented Language Models Reason? The Blame Game Between
the Retriever and the Language Model
- Title(参考訳): Retriever-Augmented Language Modelsは理にかなっているか?
レトリバーと言語モデルの間の非難ゲーム
- Authors: Parishad BehnamGhader, Santiago Miret, Siva Reddy
- Abstract要約: 検索者による事前学習言語モデルの強化により, 共通NLP問題を効果的に解く上で, 支援文書の選択が可能となった。
まず,検索文の長所と短所を考察し,検索文の長所と短所について考察する。
- 参考スコア(独自算出の注目度): 20.91408406994403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmenting pretrained language models with retrievers to select the
supporting documents has shown promise in effectively solving common NLP
problems, including language modeling and question answering, in an
interpretable way. In this paper, we first study the strengths and weaknesses
of different retriever-augmented language models (REALM, $k$NN-LM, FiD coupled
with DPR, and ATLAS and Flan-T5 coupled with Contriever) in reasoning over the
retrieved statements in different tasks. We show how the retrieve-then-read
models' limitations in reasoning are rooted both in the retriever module as
well as the language model. Our experimental results demonstrate that the
similarity metric used by the retrievers is generally insufficient for
reasoning tasks. Additionally, we show that the language models in
retriever-augmented models do not take the complicated relations between the
statements into account, which leads to poor reasoning performance even when
using the larger models. Moreover, we analyze the reasoning performance of
large language models using multihop retrieval but we only observe minor
improvements. Overall, this shows great room for further research in this area.
- Abstract(参考訳): 言語モデリングや質問応答など,一般的なNLP問題を解釈可能な方法で効果的に解決する上で,事前学習された言語モデルに支援文書を選択することが期待できる。
本稿では,検索言語モデル(REALM,$k$NN-LM,FiDとDPR,ATLASとFlan-T5とContriever)の長所と短所を,異なるタスクにおける検索文の推論で検討する。
本稿では、検索モジュールと言語モデルの両方において、推論における検索対象モデルの制限がどのように根付いているかを示す。
実験の結果,レトリバーが使用する類似度指標は,一般的に推論作業において不十分であることが判明した。
さらに,レトリバー型モデルにおける言語モデルは文間の複雑な関係を考慮せず,より大きなモデルを用いた場合でも推論性能が低下することを示した。
さらに,マルチホップ検索を用いた大規模言語モデルの推論性能の分析を行った。
全体的に見れば、この分野のさらなる研究の余地は大きい。
関連論文リスト
- Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken
Language Understanding [13.352795145385645]
大規模な事前訓練された言語モデルは、強力な言語理解能力を示している。
複数のベンチマークで異なるサイズのChatGPTやOPTなどのモデルを評価した。
しかし、スロットフィリングではモデルが悪化し、その性能はASR誤差に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-22T21:59:26Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - REPLUG: Retrieval-Augmented Black-Box Language Models [101.60145719119373]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。
その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-30T04:18:09Z) - Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks [39.39138995087475]
言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。
本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
論文 参考訳(メタデータ) (2022-05-11T18:14:33Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。