論文の概要: Language Models that Seek for Knowledge: Modular Search & Generation for
Dialogue and Prompt Completion
- arxiv url: http://arxiv.org/abs/2203.13224v1
- Date: Thu, 24 Mar 2022 17:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 12:40:31.145144
- Title: Language Models that Seek for Knowledge: Modular Search & Generation for
Dialogue and Prompt Completion
- Title(参考訳): 知識を求める言語モデル:対話と即興補完のためのモジュール検索と生成
- Authors: Kurt Shuster, Mojtaba Komeili, Leonard Adolphs, Stephen Roller, Arthur
Szlam, Jason Weston
- Abstract要約: 我々のSeeKeR法は,探索,知識生成,最終的な応答生成という3つのモジュールタスクに1つのLMを適用する。
SeeKeRを対話モデルとして使用する場合、最先端モデルであるBlenderBot 2よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 44.47066107574256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) have recently been shown to generate more factual
responses by employing modularity (Zhou et al., 2021) in combination with
retrieval (Adolphs et al., 2021). We extend the recent approach of Adolphs et
al. (2021) to include internet search as a module. Our SeeKeR (Search
engine->Knowledge->Response) method thus applies a single LM to three modular
tasks in succession: search, generating knowledge, and generating a final
response. We show that, when using SeeKeR as a dialogue model, it outperforms
the state-of-the-art model BlenderBot 2 (Chen et al., 2021) on open-domain
knowledge-grounded conversations for the same number of parameters, in terms of
consistency, knowledge and per-turn engagingness. SeeKeR applied to topical
prompt completions as a standard language model outperforms GPT2 (Radford et
al., 2019) and GPT3 (Brown et al., 2020) in terms of factuality and topicality,
despite GPT3 being a vastly larger model. Our code and models are made publicly
available.
- Abstract(参考訳): 言語モデル(LM)は、最近、モジュラリティ(Zhou et al., 2021)と検索(Adolphs et al., 2021)を組み合わせて、より現実的な応答を生成することが示されている。
Adolphs et al. (2021)の最近のアプローチを拡張して、インターネット検索をモジュールとして含めます。
したがって、SeeKeR (Search engine->Knowledge->Response) メソッドは、探索、知識の生成、最終的な応答の生成という3つのモジュールタスクに単一のLMを適用する。
本研究では,SeeKeR を対話モデルとして使用する場合,BlenderBot 2 (Chen et al., 2021) を同じ数のパラメータに対して,一貫性,知識,ターン毎の係合性の観点から,オープンドメイン知識に基づく会話において上回ることを示す。
SeeKeR は GPT2 (Radford et al., 2019) と GPT3 (Brown et al., 2020) をはるかに大きなモデルであるにもかかわらず、トピックのプロンプト補完に適用した。
私たちのコードとモデルは公開されています。
関連論文リスト
- The Llama 3 Herd of Models [356.6353861669039]
本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。
Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。
Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
論文 参考訳(メタデータ) (2024-07-31T17:54:27Z) - Cognitive Modeling with Scaffolded LLMs: A Case Study of Referential Expression Generation [5.5711773076846365]
本稿では,参照表現生成のアルゴリズム的認知モデルのニューラルシンボリック実装について検討する。
私たちのハイブリッドアプローチは認知的に妥当であり、複雑な状況下ではうまく機能します。
論文 参考訳(メタデータ) (2024-07-04T10:28:48Z) - The First Place Solution of WSDM Cup 2024: Leveraging Large Language
Models for Conversational Multi-Doc QA [15.405052113769164]
我々は、WSDMカップ2024における「会話型マルチドキュメントQA」の挑戦に対する勝利のアプローチを紹介します。
まず、タスクにLarge Language Modelsを適応させ、次に、ドメイン内のラベルなしデータを最大限活用するためのハイブリッドトレーニング戦略を考案します。
われわれのソリューションは、WSDMカップ2024で1位にランクインし、ライバルをはるかに上回った。
論文 参考訳(メタデータ) (2024-02-28T15:05:43Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - BlenderBot 3: a deployed conversational agent that continually learns to
responsibly engage [41.87861654035883]
BlenderBot 3は、インターネットへのアクセスと長期記憶による対話をオープンドメインで行うことができる対話モデルである。
モデルウェイトとコードの両方をリリースし、また、オーガニックユーザと対話するために、モデルを公開Webページにデプロイしました。
論文 参考訳(メタデータ) (2022-08-05T14:20:46Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Co-training Improves Prompt-based Learning for Large Language Models [17.37761261683756]
本研究では、ラベルなしデータを用いて、協調学習がプロンプトベース学習の性能を向上させることを実証する。
協調学習により、元のプロンプトモデルを改善することができ、同時に、より小さく、ダウンストリームなタスク固有モデルを学ぶことができる。
論文 参考訳(メタデータ) (2022-02-02T00:48:26Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。