論文の概要: More Room for Language: Investigating the Effect of Retrieval on Language Models
- arxiv url: http://arxiv.org/abs/2404.10939v1
- Date: Tue, 16 Apr 2024 22:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 17:42:39.974608
- Title: More Room for Language: Investigating the Effect of Retrieval on Language Models
- Title(参考訳): 言語のためのさらなる空間:検索が言語モデルに与える影響を探る
- Authors: David Samuel, Lucas Georges Gabriel Charpentier, Sondre Wold,
- Abstract要約: 本稿では、これらのモデルを完全に制御可能な環境で研究するための「理想的検索」手法を提案する。
本研究では,検索の強化が言語モデルの動作に与える影響を評価するための評価を行う。
- 参考スコア(独自算出の注目度): 3.8574940917179164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented language models pose a promising alternative to standard language modeling. During pretraining, these models search in a corpus of documents for contextually relevant information that could aid the language modeling objective. We introduce an 'ideal retrieval' methodology to study these models in a fully controllable setting. We conduct an extensive evaluation to examine how retrieval augmentation affects the behavior of the underlying language model. Among other things, we observe that these models: i) save substantially less world knowledge in their weights, ii) are better at understanding local context and inter-word dependencies, but iii) are worse at comprehending global context.
- Abstract(参考訳): Retrieval-augmented言語モデルは、標準言語モデリングの代替として有望なものだ。
事前学習中、これらのモデルは、言語モデリングの目的に役立つかもしれない文脈に関連のある情報を文書のコーパスで検索する。
本稿では、これらのモデルを完全に制御可能な環境で研究するための「理想的検索」手法を提案する。
本研究では,検索の強化が言語モデルの振る舞いにどのように影響するかを広範囲に評価する。
とりわけ、これらのモデルは以下のとおりである。
一 世界の知識を大幅に減らすこと。
二 現地の文脈及び単語間の依存関係を理解するのが得意であるが
三 グローバルな文脈の理解が苦手であること。
関連論文リスト
- Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Revisiting Topic-Guided Language Models [20.21486464604549]
4つのトピック誘導言語モデルと2つのベースラインについて検討し、4つのコーパス上で各モデルの保留予測性能を評価する。
これらの手法はいずれも標準のLSTM言語モデルのベースラインを上回りません。
論文 参考訳(メタデータ) (2023-12-04T20:33:24Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Reimagining Retrieval Augmented Language Models for Answering Queries [23.373952699385427]
本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。
このような言語モデルは半パラメトリックであり、モデルがモデルパラメータと外部データソースからの知識を統合して予測を行う。
論文 参考訳(メタデータ) (2023-06-01T18:08:51Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Internet-augmented language models through few-shot prompting for
open-domain question answering [6.573232954655063]
私たちは、大規模な言語モデルによって提供されるユニークないくつかのショット機能を活用して、いくつかの課題を克服しています。
Google Searchを使って、ウェブから返された情報に対して言語モデルを条件付けるために、数発のプロンプトを使用します。
ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答において、類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-10T02:24:14Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。