Fugu-MT 論文翻訳(概要): More Room for Language: Investigating the Effect of Retrieval on Language Models

論文の概要: More Room for Language: Investigating the Effect of Retrieval on Language Models

arxiv url: http://arxiv.org/abs/2404.10939v1
Date: Tue, 16 Apr 2024 22:43:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 17:42:39.974608
Title: More Room for Language: Investigating the Effect of Retrieval on Language Models
Title（参考訳）: 言語のためのさらなる空間:検索が言語モデルに与える影響を探る
Authors: David Samuel, Lucas Georges Gabriel Charpentier, Sondre Wold,
Abstract要約: 本稿では、これらのモデルを完全に制御可能な環境で研究するための「理想的検索」手法を提案する。本研究では,検索の強化が言語モデルの動作に与える影響を評価するための評価を行う。
参考スコア（独自算出の注目度）: 3.8574940917179164
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-augmented language models pose a promising alternative to standard language modeling. During pretraining, these models search in a corpus of documents for contextually relevant information that could aid the language modeling objective. We introduce an 'ideal retrieval' methodology to study these models in a fully controllable setting. We conduct an extensive evaluation to examine how retrieval augmentation affects the behavior of the underlying language model. Among other things, we observe that these models: i) save substantially less world knowledge in their weights, ii) are better at understanding local context and inter-word dependencies, but iii) are worse at comprehending global context.
Abstract（参考訳）: Retrieval-augmented言語モデルは、標準言語モデリングの代替として有望なものだ。事前学習中、これらのモデルは、言語モデリングの目的に役立つかもしれない文脈に関連のある情報を文書のコーパスで検索する。本稿では、これらのモデルを完全に制御可能な環境で研究するための「理想的検索」手法を提案する。本研究では,検索の強化が言語モデルの振る舞いにどのように影響するかを広範囲に評価する。とりわけ、これらのモデルは以下のとおりである。一世界の知識を大幅に減らすこと。二現地の文脈及び単語間の依存関係を理解するのが得意であるが三グローバルな文脈の理解が苦手であること。

関連論文リスト

Linguistic Nepotism: Trading-off Quality for Language Preference in Multilingual RAG [55.258582772528506]
異なる文書言語の混合が意図しない方法で生成と引用に影響を及ぼすかどうかを検討する。 8つの言語と6つのオープンウェイトモデルにまたがって、クエリが英語である場合、モデルは優先的に英語ソースを引用する。モデルが言語嗜好のトレードオフ文書関連性を示すことがあり、引用選択が情報のみによって常に駆動されるわけではないことが分かる。
論文参考訳（メタデータ） (2025-09-17T12:58:18Z)
Towards Fundamental Language Models: Does Linguistic Competence Scale with Model Size? [1.7915158401181968]
本稿では,基礎言語モデル(FLM)のパラダイムを導入し,実証的に支援する。我々は,言語能力,外的事実知識,内的事実知識の3次元にわたる135Mから32Bパラメータのモデルを評価する。
論文参考訳（メタデータ） (2025-09-02T11:43:21Z)
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文参考訳（メタデータ） (2024-10-22T09:25:21Z)
Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文参考訳（メタデータ） (2024-05-23T16:50:49Z)
Revisiting Topic-Guided Language Models [20.21486464604549]
4つのトピック誘導言語モデルと2つのベースラインについて検討し、4つのコーパス上で各モデルの保留予測性能を評価する。これらの手法はいずれも標準のLSTM言語モデルのベースラインを上回りません。
論文参考訳（メタデータ） (2023-12-04T20:33:24Z)
Language Models are Universal Embedders [45.8316643119292]
大きな言語モデル(LLM)革命において、埋め込みは様々なシステムの重要な構成要素である。組込み機を構築するための戦略を提案し,ユニバーサル評価ベンチマークを導入する。実験結果から,学習モデルは言語やタスクにまたがる優れた埋め込みを生成するのに長けていることがわかった。
論文参考訳（メタデータ） (2023-10-12T11:25:46Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
Reimagining Retrieval Augmented Language Models for Answering Queries [23.373952699385427]
本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。このような言語モデルは半パラメトリックであり、モデルがモデルパラメータと外部データソースからの知識を統合して予測を行う。
論文参考訳（メタデータ） (2023-06-01T18:08:51Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文参考訳（メタデータ） (2022-07-04T22:14:40Z)
Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文参考訳（メタデータ） (2022-04-13T10:32:03Z)
Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。類型的に多様な訓練言語のサンプルからこの分布を推測する。我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文参考訳（メタデータ） (2021-08-06T23:49:18Z)
The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文参考訳（メタデータ） (2021-03-02T15:57:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。