論文の概要: Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation
- arxiv url: http://arxiv.org/abs/2301.12004v1
- Date: Fri, 27 Jan 2023 22:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:40:23.309089
- Title: Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation
- Title(参考訳): 対話評価における超大規模言語モデルの有効性の理解
- Authors: Jessica Huynh, Cathy Jiao, Prakhar Gupta, Shikib Mehri, Payal Bajaj,
Vishrav Chaudhary, Maxine Eskenazi
- Abstract要約: 大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 20.18656308749408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have steadily increased in size over the past few years. They
achieve a high level of performance on various natural language processing
(NLP) tasks such as question answering and summarization. Large language models
(LLMs) have been used for generation and can now output human-like text. Due to
this, there are other downstream tasks in the realm of dialog that can now
harness the LLMs' language understanding capabilities. Dialog evaluation is one
task that this paper will explore. It concentrates on prompting with LLMs:
BLOOM, OPT, GPT-3, Flan-T5, InstructDial and TNLGv2. The paper shows that the
choice of datasets used for training a model contributes to how well it
performs on a task as well as on how the prompt should be structured.
Specifically, the more diverse and relevant the group of datasets that a model
is trained on, the better dialog evaluation performs. This paper also
investigates how the number of examples in the prompt and the type of example
selection used affect the model's performance.
- Abstract(参考訳): 過去数年間、言語モデルのサイズは着実に増加している。
質問応答や要約など,さまざまな自然言語処理(NLP)タスクにおいて高いレベルのパフォーマンスを実現する。
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
このため、ダイアログの領域には他のダウンストリームタスクがあり、LLMの言語理解機能を利用することができる。
本稿では,ダイアログ評価について検討する。
LLM(BLOOM, OPT, GPT-3, Flan-T5, InstructDial, TNLGv2)のプロンプトに集中している。
この論文は、モデルトレーニングに使用されるデータセットの選択が、タスクにおけるパフォーマンスと、プロンプトの構造化方法に寄与していることを示している。
具体的には、モデルがトレーニングするデータセット群がより多様で関連性が高いほど、より優れたダイアログ評価が実行されます。
本稿では,プロンプトのサンプル数と使用したサンプル選択のタイプがモデルの性能に与える影響についても検討する。
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for
Multimodal Large Language Models [60.27894243926344]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Beware of Words: Evaluating the Lexical Richness of Conversational Large
Language Models [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - Frugal Prompting for Dialog Models [17.048111072193933]
本研究では,大規模言語モデル(LLM)を用いた対話システム構築のための異なるアプローチについて検討する。
即時チューニングの一環として、インストラクション、例題、現在のクエリ、追加のコンテキストを提供する様々な方法を試行する。
この研究は、最適な使用情報密度を持つダイアログ履歴の表現も分析する。
論文 参考訳(メタデータ) (2023-05-24T09:06:49Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - OPAL: Ontology-Aware Pretrained Language Model for End-to-End
Task-Oriented Dialogue [40.62090743056549]
本稿では、エンドツーエンドタスク指向対話(TOD)のためのオントロジー対応事前学習言語モデル(OPAL)を提案する。
チャット型対話モデルとは異なり、タスク指向対話モデルは少なくとも2つのタスク固有モジュールを満たす:対話状態トラッカー(DST)と応答生成器(RG)。
論文 参考訳(メタデータ) (2022-09-10T04:38:27Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。