論文の概要: Personal Attribute Prediction from Conversations
- arxiv url: http://arxiv.org/abs/2209.09619v1
- Date: Mon, 29 Aug 2022 15:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:49:40.290917
- Title: Personal Attribute Prediction from Conversations
- Title(参考訳): 会話からの個人属性予測
- Authors: Yinan Liu and Hu Chen and Wei Shen
- Abstract要約: 個人知識ベース(PKB)の充実に寄与する個人属性値の予測を目指す。
ラベル付き発話を必要とせずに会話から個人属性を予測するために,雑音ロス機能付き事前学習言語モデルに基づくフレームワークを提案する。
本フレームワークは, nDCG と MRR の合計12基に対して, 最高の性能が得られる。
- 参考スコア(独自算出の注目度): 9.208339833472051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personal knowledge bases (PKBs) are critical to many applications, such as
Web-based chatbots and personalized recommendation. Conversations containing
rich personal knowledge can be regarded as a main source to populate the PKB.
Given a user, a user attribute, and user utterances from a conversational
system, we aim to predict the personal attribute value for the user, which is
helpful for the enrichment of PKBs. However, there are three issues existing in
previous studies: (1) manually labeled utterances are required for model
training; (2) personal attribute knowledge embedded in both utterances and
external resources is underutilized; (3) the performance on predicting some
difficult personal attributes is unsatisfactory. In this paper, we propose a
framework DSCGN based on the pre-trained language model with a noise-robust
loss function to predict personal attributes from conversations without
requiring any labeled utterances. We yield two categories of supervision, i.e.,
document-level supervision via a distant supervision strategy and
contextualized word-level supervision via a label guessing method, by mining
the personal attribute knowledge embedded in both unlabeled utterances and
external resources to fine-tune the language model. Extensive experiments over
two real-world data sets (i.e., a profession data set and a hobby data set)
show our framework obtains the best performance compared with all the twelve
baselines in terms of nDCG and MRR.
- Abstract(参考訳): 個人知識ベース(pkb)は、webベースのチャットボットやパーソナライズドレコメンデーションなど、多くのアプリケーションにとって重要である。
豊富な個人知識を含む会話は、pkbを投入する主要な情報源と見なすことができる。
ユーザ, ユーザ属性, ユーザ発話が会話システムから与えられた場合, ユーザの個人属性値を予測することが, PKBの充実に有効である。
しかし,(1)手動ラベル付き発話はモデル学習に必要であり,(2)発話と外部資源に埋め込まれた個人的属性知識が不足している,(3)困難な個人的属性の予測性能が不十分である,という3つの課題が存在する。
本稿では,ラベル付き発話を必要とせず,会話から個人属性を予測できるノイズロバスト損失関数付き事前学習言語モデルに基づくフレームワークdscgnを提案する。
ラベルなし発話と外部リソースに埋め込まれた個人的属性知識をマイニングして言語モデルを微調整することにより,遠隔監視戦略による文書レベルの監督とラベル推定手法による文脈化された単語レベルの監督の2つのカテゴリを得る。
2つの実世界のデータセット(すなわち職業データセットと趣味データセット)にわたる広範囲な実験により、ndcgとmrrの観点から、我々のフレームワークが全12のベースラインと比較して最高のパフォーマンスを得ることを示した。
関連論文リスト
- PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - AUGUST: an Automatic Generation Understudy for Synthesizing
Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。
i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文 参考訳(メタデータ) (2023-06-16T05:27:14Z) - Speaker Profiling in Multiparty Conversations [31.518453682472575]
本研究では,会話における話者プロファイリング(SPC)の課題について検討する。
SPCの主な目的は、対話に存在する各話者について、ペルソナの特徴の要約を作成することである。
SPCの課題に対処するため、私たちはSPICEという名前の新しいデータセットをキュレートしました。
論文 参考訳(メタデータ) (2023-04-18T08:04:46Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Low-resource Personal Attribute Prediction from Conversation [20.873276038560057]
会話から個人属性を予測するための新しいフレームワークPEARLを提案する。
PEARLは、更新された先行属性知識を用いて、両項意味情報と単語共起情報とをシームレスに結合する。
論文 参考訳(メタデータ) (2022-11-28T14:04:51Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Improving Personality Consistency in Conversation by Persona Extending [22.124187337032946]
本稿では,Persona Retrieval Model(PRM)とPosterior-Scored Transformer(PS-Transformer)の2つのサブコンポーネントからなる新しい検索・予測パラダイムを提案する。
提案モデルでは,自動測定と人的評価の両面で大幅に改善されている。
論文 参考訳(メタデータ) (2022-08-23T09:00:58Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z) - A Neural Topical Expansion Framework for Unstructured Persona-oriented
Dialogue Generation [52.743311026230714]
Persona Exploration and Exploitation (PEE)は、事前に定義されたユーザペルソナ記述を意味論的に相関したコンテンツで拡張することができる。
PEEはペルソナ探索とペルソナ搾取という2つの主要なモジュールで構成されている。
提案手法は, 自動評価と人的評価の両面で, 最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-06T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。