Fugu-MT 論文翻訳(概要): Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model

論文の概要: Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model

arxiv url: http://arxiv.org/abs/2212.09146v3
Date: Thu, 2 Nov 2023 19:12:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 18:32:13.003190
Title: Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model
Title（参考訳）: Retriever-Augmented Language Modelsは理にかなっているか? レトリバーと言語モデルの間の非難ゲーム
Authors: Parishad BehnamGhader, Santiago Miret, Siva Reddy
Abstract要約: 事前訓練された言語モデルをレトリバーで拡張することは、共通のNLP問題を効果的に解決する可能性を示している。我々は,一般的な検索言語モデルであるkNN-LM,REALM,DPR+FiD,Contriever+ATLAS,Contriever+Flan-T5の長所と短所を評価する。
参考スコア（独自算出の注目度）: 33.729248437727634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Augmenting pretrained language models with retrievers has shown promise in effectively solving common NLP problems, such as language modeling and question answering. In this paper, we evaluate the strengths and weaknesses of popular retriever-augmented language models, namely kNN-LM, REALM, DPR + FiD, Contriever + ATLAS, and Contriever + Flan-T5, in reasoning over retrieved statements across different tasks. Our findings indicate that the simple similarity metric employed by retrievers is insufficient for retrieving all the necessary statements for reasoning. Additionally, the language models do not exhibit strong reasoning even when provided with only the required statements. Furthermore, when combined with imperfect retrievers, the performance of the language models becomes even worse, e.g., Flan-T5's performance drops by 28.6% when retrieving 5 statements using Contriever. While larger language models improve performance, there is still a substantial room for enhancement. Our further analysis indicates that multihop retrieve-and-read is promising for large language models like GPT-3.5, but does not generalize to other language models like Flan-T5-xxl.
Abstract（参考訳）: 言語モデリングや質問応答など,一般的なNLP問題を効果的に解決する上で,事前訓練された言語モデルをレトリバーで拡張することが期待されている。本稿では,一般的な検索言語モデル(kNN-LM, REALM, DPR + FiD, Contriever + ATLAS, Contriever + Flan-T5)の長所と短所を,異なるタスクにまたがる検索文を推論して評価する。以上の結果から,レトリバーが使用する単純な類似度指標は,推論に必要な全ての文を検索するには不十分であることが示唆された。さらに、言語モデルは、必要なステートメントのみを提供する場合でも、強い推論を示さない。さらに、不完全なレトリバーと組み合わせると、contrieverを使って5つのステートメントを取得すると、flan-t5のパフォーマンスが28.6%低下するなど、言語モデルのパフォーマンスはさらに悪化する。大きな言語モデルではパフォーマンスが向上しますが、拡張の余地はまだあります。さらに分析した結果,マルチホップ検索は GPT-3.5 のような大規模言語モデルに対して有望であるが,Flan-T5-xxl のような他の言語モデルには一般化されないことがわかった。

関連論文リスト

Revela: Dense Retriever Learning via Language Modeling [85.12131321155486]
本稿では,言語モデリングによる自己教師型検索学習のための統合学習フレームワークであるRevelaを紹介する。一般ドメイン (BEIR) とドメイン固有 (CoIR) のベンチマークで様々なバックボーン上でRevelaを評価する。
論文参考訳（メタデータ） (2025-06-19T19:13:59Z)
TongSearch-QR: Reinforced Query Reasoning for Retrieval [22.833651162995615]
TongSearch QRは、クエリ推論と推論集約検索における書き換えのための、小規模言語モデルのファミリーである。半ルールに基づく新たな報酬関数により、より小さな言語モデルを実現する強化学習アプローチを採用する。 BRIGHTベンチマークの実験結果によると、BM25をリトリーバーとして、TongSearch QR-7BとTongSearch QR-1.5Bモデルの両方が既存のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-06-13T09:17:36Z)
Negation: A Pink Elephant in the Large Language Models' Room? [2.8078480738404]
否定は文の意味を決定する鍵であり、論理的推論には不可欠である。一般的な言語モデルを評価することにより,モデルのサイズと言語が否定を正しく処理する能力にどのように影響するかを検討する。我々のデータセットは、多言語設定における言語モデル推論のさらなる研究と改善を促進することができる。
論文参考訳（メタデータ） (2025-03-28T13:04:41Z)
Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文参考訳（メタデータ） (2023-10-29T22:37:54Z)
Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文参考訳（メタデータ） (2023-10-02T18:52:35Z)
Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding [13.352795145385645]
大規模な事前訓練された言語モデルは、強力な言語理解能力を示している。複数のベンチマークで異なるサイズのChatGPTやOPTなどのモデルを評価した。しかし、スロットフィリングではモデルが悪化し、その性能はASR誤差に敏感であることを示す。
論文参考訳（メタデータ） (2023-05-22T21:59:26Z)
BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-04-19T13:40:47Z)
REPLUG: Retrieval-Augmented Black-Box Language Models [101.60145719119373]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文参考訳（メタデータ） (2023-01-30T04:18:09Z)
Structured, flexible, and robust: benchmarking and improving large language models towards more human-like behavior in out-of-distribution reasoning tasks [39.39138995087475]
言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
論文参考訳（メタデータ） (2022-05-11T18:14:33Z)
Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文参考訳（メタデータ） (2021-09-16T03:08:22Z)
Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文参考訳（メタデータ） (2021-05-07T21:58:35Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。