Fugu-MT 論文翻訳(概要): Understanding the Effectiveness of Very Large Language Models on Dialog Evaluation

論文の概要: Understanding the Effectiveness of Very Large Language Models on Dialog Evaluation

arxiv url: http://arxiv.org/abs/2301.12004v1
Date: Fri, 27 Jan 2023 22:02:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 19:40:23.309089
Title: Understanding the Effectiveness of Very Large Language Models on Dialog Evaluation
Title（参考訳）: 対話評価における超大規模言語モデルの有効性の理解
Authors: Jessica Huynh, Cathy Jiao, Prakhar Gupta, Shikib Mehri, Payal Bajaj, Vishrav Chaudhary, Maxine Eskenazi
Abstract要約: 大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
参考スコア（独自算出の注目度）: 20.18656308749408
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models have steadily increased in size over the past few years. They achieve a high level of performance on various natural language processing (NLP) tasks such as question answering and summarization. Large language models (LLMs) have been used for generation and can now output human-like text. Due to this, there are other downstream tasks in the realm of dialog that can now harness the LLMs' language understanding capabilities. Dialog evaluation is one task that this paper will explore. It concentrates on prompting with LLMs: BLOOM, OPT, GPT-3, Flan-T5, InstructDial and TNLGv2. The paper shows that the choice of datasets used for training a model contributes to how well it performs on a task as well as on how the prompt should be structured. Specifically, the more diverse and relevant the group of datasets that a model is trained on, the better dialog evaluation performs. This paper also investigates how the number of examples in the prompt and the type of example selection used affect the model's performance.
Abstract（参考訳）: 過去数年間、言語モデルのサイズは着実に増加している。質問応答や要約など,さまざまな自然言語処理(NLP)タスクにおいて高いレベルのパフォーマンスを実現する。大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。このため、ダイアログの領域には他のダウンストリームタスクがあり、LLMの言語理解機能を利用することができる。本稿では,ダイアログ評価について検討する。 LLM(BLOOM, OPT, GPT-3, Flan-T5, InstructDial, TNLGv2)のプロンプトに集中している。この論文は、モデルトレーニングに使用されるデータセットの選択が、タスクにおけるパフォーマンスと、プロンプトの構造化方法に寄与していることを示している。具体的には、モデルがトレーニングするデータセット群がより多様で関連性が高いほど、より優れたダイアログ評価が実行されます。本稿では,プロンプトのサンプル数と使用したサンプル選択のタイプがモデルの性能に与える影響についても検討する。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
Frugal Prompting for Dialog Models [17.048111072193933]
本研究では,大規模言語モデル(LLM)を用いた対話システム構築のための異なるアプローチについて検討する。即時チューニングの一環として、インストラクション、例題、現在のクエリ、追加のコンテキストを提供する様々な方法を試行する。この研究は、最適な使用情報密度を持つダイアログ履歴の表現も分析する。
論文参考訳（メタデータ） (2023-05-24T09:06:49Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)
Stabilized In-Context Learning with Pre-trained Language Models for Few Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文参考訳（メタデータ） (2023-02-12T15:05:10Z)
OPAL: Ontology-Aware Pretrained Language Model for End-to-End Task-Oriented Dialogue [40.62090743056549]
本稿では、エンドツーエンドタスク指向対話(TOD)のためのオントロジー対応事前学習言語モデル(OPAL)を提案する。チャット型対話モデルとは異なり、タスク指向対話モデルは少なくとも2つのタスク固有モジュールを満たす:対話状態トラッカー(DST)と応答生成器(RG)。
論文参考訳（メタデータ） (2022-09-10T04:38:27Z)
In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文参考訳（メタデータ） (2022-03-16T11:58:24Z)
Do Response Selection Models Really Know What's Next? Utterance Manipulation Strategies for Multi-turn Response Selection [11.465266718370536]
本研究では,検索に基づく対話システムにおけるユーザとシステム発話履歴の最適応答を選択するタスクについて検討する。この問題に対処するための発話操作戦略(UMS)を提案する。 UMSは、ダイアログコヒーレンスを維持するための応答選択モデルを支援するいくつかの戦略(挿入、削除、検索)から構成される。
論文参考訳（メタデータ） (2020-09-10T07:39:05Z)
Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文参考訳（メタデータ） (2020-08-14T08:23:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。