論文の概要: USDC: A Dataset of $\underline{U}$ser $\underline{S}$tance and $\underline{D}$ogmatism in Long $\underline{C}$onversations
- arxiv url: http://arxiv.org/abs/2406.16833v1
- Date: Mon, 24 Jun 2024 17:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 13:46:06.805498
- Title: USDC: A Dataset of $\underline{U}$ser $\underline{S}$tance and $\underline{D}$ogmatism in Long $\underline{C}$onversations
- Title(参考訳): USDC:$\underline{U}$ser $\underline{S}$tance and $\underline{D}$ogmatism in Long $\underline{C}$onversations
- Authors: Mounika Marreddy, Subba Reddy Oota, Venkata Charan Chinni, Manish Gupta, Lucie Flek,
- Abstract要約: 我々はMistral LargeとGPT-4を使って2つのタスクにおける人間のアノテーションプロセスを自動化する。
764人のマルチユーザRedditの会話で、ゼロショット、ワンショット、および少数ショットのアノテーションに投票する多数派は、USDCデータセットをキュレートするのに役立ちます。
その後、USDCは5クラスのスタンスと4クラスのドクトマティズム分類タスクのために、複数のデプロイ可能な小さな言語モデルを微調整およびインストラクションチューニングするために使用される。
- 参考スコア(独自算出の注目度): 15.864027356607998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying user's opinions and stances in long conversation threads on various topics can be extremely critical for enhanced personalization, market research, political campaigns, customer service, conflict resolution, targeted advertising, and content moderation. Hence, training language models to automate this task is critical. However, to train such models, gathering manual annotations has multiple challenges: 1) It is time-consuming and costly; 2) Conversation threads could be very long, increasing chances of noisy annotations; and 3) Interpreting instances where a user changes their opinion within a conversation is difficult because often such transitions are subtle and not expressed explicitly. Inspired by the recent success of large language models (LLMs) for complex natural language processing (NLP) tasks, we leverage Mistral Large and GPT-4 to automate the human annotation process on the following two tasks while also providing reasoning: i) User Stance classification, which involves labeling a user's stance of a post in a conversation on a five-point scale; ii) User Dogmatism classification, which deals with labeling a user's overall opinion in the conversation on a four-point scale. The majority voting on zero-shot, one-shot, and few-shot annotations from these two LLMs on 764 multi-user Reddit conversations helps us curate the USDC dataset. USDC is then used to finetune and instruction-tune multiple deployable small language models for the 5-class stance and 4-class dogmatism classification tasks. We make the code and dataset publicly available [https://anonymous.4open.science/r/USDC-0F7F].
- Abstract(参考訳): 様々なトピックの長い会話スレッドにおけるユーザの意見やスタンスを識別することは、パーソナライゼーション、市場調査、政治キャンペーン、カスタマーサービス、コンフリクト解決、ターゲット広告、コンテンツモデレーションの強化に極めて重要である。
したがって、このタスクを自動化するために言語モデルをトレーニングすることが重要である。
しかし、そのようなモデルをトレーニングするためには、手動アノテーションの収集には複数の課題がある。
1) 時間がかかり費用がかかる。
2)会話スレッドは非常に長く、ノイズの多いアノテーションの可能性が高まります。
3)会話の中でユーザが意見を変えるインスタンスの解釈は困難である。
複雑な自然言語処理(NLP)タスクのための大規模言語モデル(LLM)の最近の成功に触発されて、我々はMistral LargeとGPT-4を活用し、以下の2つのタスクにおける人間のアノテーションプロセスを自動化するとともに、推論も行う。
一 ユーザースタンス分類であって、利用者の投稿の姿勢を五点規模の会話でラベル付けすること
二 ユーザ・ドッグマティズムの分類であって、4点の尺度で会話において、ユーザの全体的意見をラベル付けするものであること。
764人のマルチユーザRedditの会話で、ゼロショット、ワンショット、および少数ショットのアノテーションに投票する多数派は、USDCデータセットをキュレートするのに役立ちます。
その後、USDCは5クラスのスタンスと4クラスのドクトマティズム分類タスクのために、複数のデプロイ可能な小さな言語モデルを微調整およびインストラクションチューニングするために使用される。
コードとデータセットを公開しています [https://anonymous.4open.science/r/USDC-0F7F]。
関連論文リスト
- Role-Play Zero-Shot Prompting with Large Language Models for Open-Domain Human-Machine Conversation [1.7436854281619139]
大きな言語モデル(LLM)は、ユーザクエリに応答できるが、真の会話ではなく、一方的なQ&A形式である。
特定のデータセットの微調整は、会話能力を高めるためにスタイルを変更する一般的な方法だが、これは高価であり、通常はいくつかの言語でのみ利用可能である。
本研究では、オープンドメイン会話の効率的かつ費用対効果の高いソリューションとして、ロールプレイゼロショットプロンプトについて検討する。
論文 参考訳(メタデータ) (2024-06-26T16:10:53Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - When Crowd Meets Persona: Creating a Large-Scale Open-Domain Persona
Dialogue Corpus [13.051107304650627]
自然言語データセットの構築には、単語の意味論が微妙なテキストの変更や注釈付き概念の定義に弱いため、注意が必要である。
本研究では,大規模なオープンドメインペルソナ対話コーパスを作成する際に,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-04-01T16:10:36Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - TANet: Thread-Aware Pretraining for Abstractive Conversational
Summarization [27.185068253347257]
我々はRedditコミュニティの複数人による議論に基づいて,RCSと呼ばれる大規模(11M)事前学習データセットを構築した。
次に、スレッド対応のTransformerベースのネットワークであるTANetを紹介する。
会話を文の列として扱う既存の事前学習モデルとは異なり、本質的な文脈依存は会話全体を理解する上で重要な役割を担っていると論じる。
論文 参考訳(メタデータ) (2022-04-09T16:08:46Z) - A Slot Is Not Built in One Utterance: Spoken Language Dialogs with
Sub-Slots [67.69407159704328]
本稿では,SSTOD(Sub-Slot based Task-Oriented Dialog)というタスクを新たに定義する。
データセットには、中国名、電話番号、ID番号、ナンバープレート番号の4つのドメインから合計40Kのダイアログと500Kの発話が含まれている。
我々はSSTODに新たな言語現象と対話的方法を見いだし、タスクのためのダイアログエージェントを構築する上で重要な課題を提起する。
論文 参考訳(メタデータ) (2022-03-21T07:10:19Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Switch Point biased Self-Training: Re-purposing Pretrained Models for
Code-Switching [44.034300203700234]
コードスイッチングは、多言語コミュニティにおけるコミュニケーションの容易さから、ユビキタスな現象である。
スイッチポイントバイアスを用いて既存の事前学習モデルを再利用するための自己学習手法を提案する。
本手法は,スイッチポイント性能のギャップを小さくすることで,両タスクにおいて良好に機能する。
論文 参考訳(メタデータ) (2021-11-01T19:42:08Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。