Fugu-MT 論文翻訳(概要): On the Generalization Ability of Retrieval-Enhanced Transformers

論文の概要: On the Generalization Ability of Retrieval-Enhanced Transformers

arxiv url: http://arxiv.org/abs/2302.12128v1
Date: Thu, 23 Feb 2023 16:11:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-24 14:29:49.798507
Title: On the Generalization Ability of Retrieval-Enhanced Transformers
Title（参考訳）: 検索強化変圧器の一般化能力について
Authors: Tobias Norlund, Ehsan Doostmohammadi, Richard Johansson, Marco Kuhlmann
Abstract要約: トレーニング可能な重みから検索データベースへのオフロードメモリは、言語モデリングを大幅に改善することができる。この性能向上の少なくとも一部は、モデル重みと検索の両方に基づく非自明な一般化によるものであることが示唆されている。検索結果から得られる性能は,データベースとテストデータの間に重複するトークンが主な原因であることが判明した。
参考スコア（独自算出の注目度）: 1.0552465253379135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work on the Retrieval-Enhanced Transformer (RETRO) model has shown that off-loading memory from trainable weights to a retrieval database can significantly improve language modeling and match the performance of non-retrieval models that are an order of magnitude larger in size. It has been suggested that at least some of this performance gain is due to non-trivial generalization based on both model weights and retrieval. In this paper, we try to better understand the relative contributions of these two components. We find that the performance gains from retrieval largely originate from overlapping tokens between the database and the test data, suggesting less non-trivial generalization than previously assumed. More generally, our results point to the challenges of evaluating the generalization of retrieval-augmented language models such as RETRO, as even limited token overlap may significantly decrease test-time loss. We release our code and model at https://github.com/TobiasNorlund/retro
Abstract（参考訳）: Retrieval-Enhanced Transformer (RETRO) モデルに関する最近の研究は、トレーニング可能な重み付けから検索データベースへのオフロードメモリが言語モデリングを著しく改善し、より大きなサイズの非検索モデルの性能に匹敵することを示した。この性能向上の少なくとも一部は、モデル重みと検索の両方に基づく非自明な一般化によるものであることが示唆されている。本稿では,これら2つのコンポーネントの相対的貢献をよりよく理解しようと試みる。検索の結果,データベースとテストデータ間のトークンの重なり合いに起因し,従来想定されていたよりも非自明な一般化は少ないことが示唆された。より一般的には,RETROのような検索強化言語モデルの一般化を評価する上での課題が指摘されている。コードとモデルはhttps://github.com/tobiasnorlund/retroでリリースします。

関連論文リスト

Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding [2.0257616108612373]
本稿では,大規模言語モデル拡張によるモデルに依存しないドキュメントレベルの埋め込みフレームワークを提案する。我々は広く利用されている検索モデルの有効性を大幅に改善することができた。
論文参考訳（メタデータ） (2024-04-08T19:29:07Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。 LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文参考訳（メタデータ） (2023-12-21T03:51:08Z)
Surface-Based Retrieval Reduces Perplexity of Retrieval-Augmented Language Models [1.0552465253379135]
本研究では,現状のRetroモデルについて検討し,その性能向上が表面レベルの類似性によってよりよく説明できることを示した。これに触発されて、私たちはRetroのセマンティック検索をBM25に基づく表面レベルの手法に置き換え、パープレキシティの大幅な低減を実現した。
論文参考訳（メタデータ） (2023-05-25T16:56:26Z)
Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。 Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文参考訳（メタデータ） (2023-05-24T16:17:36Z)
Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文参考訳（メタデータ） (2023-04-13T18:04:19Z)
Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文参考訳（メタデータ） (2023-02-11T02:43:34Z)
DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。 4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文参考訳（メタデータ） (2022-10-28T11:18:10Z)
UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文参考訳（メタデータ） (2022-05-23T11:01:59Z)
Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。 2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文参考訳（メタデータ） (2021-12-08T17:32:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。