論文の概要: How do decoding algorithms distribute information in dialogue responses?
- arxiv url: http://arxiv.org/abs/2303.17006v1
- Date: Wed, 29 Mar 2023 20:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:13:33.783953
- Title: How do decoding algorithms distribute information in dialogue responses?
- Title(参考訳): デコードアルゴリズムは対話応答にどのように情報を分配するか?
- Authors: Saranya Venkatraman, He He and David Reitter
- Abstract要約: 我々はPersona-Chatデータセット上でGPT-2で異なる復号アルゴリズムを用いて応答を生成する。
モデル生成応答は, UIDの原理に従えば, 人間の反応よりも遥かに大きいことが判明した。
- 参考スコア(独自算出の注目度): 12.292306108027118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans tend to follow the Uniform Information Density (UID) principle by
distributing information evenly in utterances. We study if decoding algorithms
implicitly follow this UID principle, and under what conditions adherence to
UID might be desirable for dialogue generation. We generate responses using
different decoding algorithms with GPT-2 on the Persona-Chat dataset and
collect human judgments on their quality using Amazon Mechanical Turk. We find
that (i) surprisingly, model-generated responses follow the UID principle to a
greater extent than human responses, and (ii) decoding algorithms that promote
UID do not generate higher-quality responses. Instead, when we control for
surprisal, non-uniformity of information density correlates with the quality of
responses with very low/high surprisal. Our findings indicate that encouraging
non-uniform responses is a potential solution to the ``likelihood trap''
problem (quality degradation in very high-likelihood text). Our dataset
containing multiple candidate responses per dialog history along with
human-annotated quality ratings is available at
https://huggingface.co/datasets/saranya132/dialog_uid_gpt2.
- Abstract(参考訳): 人間は、一様情報密度(uid)原則に従って、発話で情報を均等に分配する傾向がある。
我々は,復号アルゴリズムがこのUID原則を暗黙的に従うか否か,また,UIDに付着する条件が対話生成に望ましいかを検討する。
我々は、Persona-Chatデータセット上のGPT-2で異なる復号アルゴリズムを用いて応答を生成し、Amazon Mechanical Turkを用いて品質に関する人間の判断を収集する。
私たちはそれを見つけ
(i)驚いたことに、モデル生成の応答は、人間の反応よりもずっとuidの原理に従っており、
(II)UDDを促進する復号アルゴリズムは高品質な応答を生成できない。
代わりに、情報密度の非均一性に対する制御は、非常に低・高次な応答の品質と相関する。
以上の結果から,'likelihood trap'問題に対する潜在的な解決策は,非一様応答の促進である可能性が示唆された。
ダイアログ履歴毎に複数の候補応答を含むデータセットと、人間の注釈付き品質評価は、https://huggingface.co/datasets/saranya132/dialog_uid_gpt2で利用可能です。
関連論文リスト
- Retrieval-Generation Alignment for End-to-End Task-Oriented Dialogue
System [40.33178881317882]
本稿では、応答生成からの信号を利用して、知覚的レトリバーの学習に最大限の限界確率を適用することを提案する。
本稿では,T5とChatGPTをバックボーンモデルとして用いた3つのタスク指向対話データセットについて検討する。
論文 参考訳(メタデータ) (2023-10-13T06:03:47Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Achieving Conversational Goals with Unsupervised Post-hoc Knowledge
Injection [37.15893335147598]
現在のニューラルダイアログモデルの制限は、生成された応答における特異性と情報性の欠如に悩まされる傾向があることである。
本稿では,対話履歴と既存の対話モデルから初期応答の両方を条件とした,多様な知識スニペットの集合を検索する,ポストホックな知識注入手法を提案する。
我々は,各検索したスニペットを,勾配に基づく復号法を用いて初期応答に個別に注入し,教師なしランキングステップで最終応答を選択する複数の候補応答を構築する。
論文 参考訳(メタデータ) (2022-03-22T00:42:27Z) - Decoding Methods for Neural Narrative Generation [74.37264021226308]
ナラティブ生成(英: Narrative generation)とは、モデルがプロンプトを与えられたストーリーを生成するオープンエンドのNLPタスクである。
ニューラル・ナラティブ・ジェネレーションに対するニューラル・レスポンス・ジェネレーションのためのデコード手法の適用と評価を行った。
論文 参考訳(メタデータ) (2020-10-14T19:32:56Z) - If beam search is the answer, what was the question? [78.71330480725668]
ビームサーチは、認知科学に動機づけられた特性であるテキストの均一な情報密度を強制する。
この特性を明示的に強制する復号対象のセットを提案し、これらの目的による正確な復号化は、校正の不十分な言語生成モデルの復号時に発生する問題を緩和する。
論文 参考訳(メタデータ) (2020-10-06T11:57:03Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z) - Asking Questions the Human Way: Scalable Question-Answer Generation from
Text Corpus [23.676748207014903]
問合せ型質問生成(ACS-QG)を提案する。
ラベルなしテキストコーパスから高品質で多様な質問応答ペアを大規模に自動生成することを目的としている。
ウィキペディアで見つかった100万の文から、280万の質保証された質問応答ペアを生成することができる。
論文 参考訳(メタデータ) (2020-01-27T05:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。