論文の概要: When Crowd Meets Persona: Creating a Large-Scale Open-Domain Persona
Dialogue Corpus
- arxiv url: http://arxiv.org/abs/2304.00350v1
- Date: Sat, 1 Apr 2023 16:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:34:46.405828
- Title: When Crowd Meets Persona: Creating a Large-Scale Open-Domain Persona
Dialogue Corpus
- Title(参考訳): 群衆がペルソナに出会う:大規模オープンドメインペルソナ対話コーパスの作成
- Authors: Won Ik Cho, Yoon Kyung Lee, Seoyeon Bae, Jihwan Kim, Sangah Park,
Moosung Kim, Sowon Hahn, Nam Soo Kim
- Abstract要約: 自然言語データセットの構築には、単語の意味論が微妙なテキストの変更や注釈付き概念の定義に弱いため、注意が必要である。
本研究では,大規模なオープンドメインペルソナ対話コーパスを作成する際に,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 13.051107304650627
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Building a natural language dataset requires caution since word semantics is
vulnerable to subtle text change or the definition of the annotated concept.
Such a tendency can be seen in generative tasks like question-answering and
dialogue generation and also in tasks that create a categorization-based
corpus, like topic classification or sentiment analysis. Open-domain
conversations involve two or more crowdworkers freely conversing about any
topic, and collecting such data is particularly difficult for two reasons: 1)
the dataset should be ``crafted" rather than ``obtained" due to privacy
concerns, and 2) paid creation of such dialogues may differ from how
crowdworkers behave in real-world settings. In this study, we tackle these
issues when creating a large-scale open-domain persona dialogue corpus, where
persona implies that the conversation is performed by several actors with a
fixed persona and user-side workers from an unspecified crowd.
- Abstract(参考訳): 単語意味論は微妙なテキストの変更や注釈付き概念の定義に弱いため、自然言語データセットの構築には注意が必要である。
このような傾向は、質問応答や対話生成といった生成的なタスクや、トピック分類や感情分析といった分類ベースのコーパスを作成するタスクにも見られます。
オープンドメインの会話には,任意のトピックについて自由に会話する2人以上のクラウドワーカーが関与する。
1) データセットはプライバシー上の懸念から ``obtained" ではなく ``crafted" でなければならない。
2)このような対話の有償作成は,現実の環境でのクラウドワーカーの行動と異なる場合がある。
本研究では,大規模なオープンドメインペルソナ対話のコーパスを作成する際に,ペルソナは,固定されたペルソナを持つ複数の俳優と,特定されていない群衆からユーザ側ワーカーが会話を行うことを意味する。
関連論文リスト
- Learning From Free-Text Human Feedback -- Collect New Datasets Or Extend
Existing Ones? [57.16050211534735]
一般的な対話データセットにおける自由文フィードバックのタイプと頻度について検討する。
この結果から, エラータイプ, ユーザ応答タイプ, それらの関係性など, 調査したデータセットの構成に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-10-24T12:01:11Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Grounding in social media: An approach to building a chit-chat dialogue
model [9.247397520986999]
豊かな人間のような会話能力を持つオープンドメイン対話システムを構築することは、言語生成における根本的な課題の1つである。
知識に基づく対話生成に関する現在の研究は、主にウィキペディアのような事実に基づく構造化知識ソースを法人化または検索することに焦点を当てている。
本手法は,ソーシャルメディア上での人間の反応行動の模倣によって,システムの生会話能力を向上させることを目的とした,より広範かつシンプルなアプローチである。
論文 参考訳(メタデータ) (2022-06-12T09:01:57Z) - SalesBot: Transitioning from Chit-Chat to Task-Oriented Dialogues [22.89699254073016]
ソーシャルチャットからタスク指向対話へのスムーズな移行は、ビジネスチャンスの引き金になる上で重要である。
本稿では,人間の介在なく多数の対話を自動生成するフレームワークを提案する。
公表されたデータは、将来の研究方向と商業活動のガイドとなる大きな可能性を秘めている。
論文 参考訳(メタデータ) (2022-04-22T09:31:13Z) - Detecting Speaker Personas from Conversational Texts [52.4557098875992]
本研究では,平易な会話テキストに基づく話者ペルソナの検出を目的とした,話者ペルソナ検出(SPD)という新しいタスクについて検討する。
我々は、Persona Match on Persona-Chat (PMPC)と呼ばれるSPDのためのデータセットを構築している。
本稿では,複数のベースラインモデルを評価し,この課題に対する発話対注目(U2P)マッチングネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T06:14:38Z) - Linguistic Characterization of Divisive Topics Online: Case Studies on
Contentiousness in Abortion, Climate Change, and Gun Control [11.127421264715556]
異論的な話題は、論争的かつ非矛盾的な会話を喚起する。
我々は、高度に分断された話題(吸収、気候変動、銃規制)からの会話に焦点を当てている。
我々は,新しい言語的特徴と会話的特徴とユーザ要因のセットを運用し,それらを組み込んで解釈可能なモデルを構築する。
論文 参考訳(メタデータ) (2021-08-30T23:55:38Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Learning to Select Context in a Hierarchical and Global Perspective for
Open-domain Dialogue Generation [15.01710843286394]
階層的自己保持機構と遠隔監視を備えた新しいモデルを提案し、関連する単語と発話を短距離および長距離で検出する。
私たちのモデルは、流速、コヒーレンス、および情報性の観点から他のベースラインを大幅に上回ります。
論文 参考訳(メタデータ) (2021-02-18T11:56:42Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。