論文の概要: Extracting triples from dialogues for conversational social agents
- arxiv url: http://arxiv.org/abs/2412.18364v1
- Date: Tue, 24 Dec 2024 11:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:33.169855
- Title: Extracting triples from dialogues for conversational social agents
- Title(参考訳): 対話型ソーシャルエージェントのための対話から三重項を抽出する
- Authors: Piek Vossen, Selene Báez Santamaría, Lenka Bajčetić, Thomas Belluci,
- Abstract要約: トリプル抽出は主にウィキペディアのテキストとデータを使って知識ベースコンプリートのために開発され、テストされている。
共参照、楕円、調整、暗黙的かつ明示的な否定や確認といった現象はウィキペディアのテキストよりも会話において顕著である。
最高精度は完全三重奏で51.14、単発で試験すると三重奏で69.32である。
- 参考スコア(独自算出の注目度): 0.9999629695552195
- License:
- Abstract: Obtaining an explicit understanding of communication within a Hybrid Intelligence collaboration is essential to create controllable and transparent agents. In this paper, we describe a number of Natural Language Understanding models that extract explicit symbolic triples from social conversation. Triple extraction has mostly been developed and tested for Knowledge Base Completion using Wikipedia text and data for training and testing. However, social conversation is very different as a genre in which interlocutors exchange information in sequences of utterances that involve statements, questions, and answers. Phenomena such as co-reference, ellipsis, coordination, and implicit and explicit negation or confirmation are more prominent in conversation than in Wikipedia text. We therefore describe an attempt to fill this gap by releasing data sets for training and testing triple extraction from social conversation. We also created five triple extraction models and tested them in our evaluation data. The highest precision is 51.14 for complete triples and 69.32 for triple elements when tested on single utterances. However, scores for conversational triples that span multiple turns are much lower, showing that extracting knowledge from true conversational data is much more challenging.
- Abstract(参考訳): 制御可能で透明なエージェントを作成するためには、ハイブリッドインテリジェンスコラボレーション内のコミュニケーションを明確に理解することが不可欠である。
本稿では,社会会話から明示的な三重項を抽出する自然言語理解モデルについて述べる。
トリプル抽出は主にウィキペディアのテキストとデータを使って知識ベースコンプリートのために開発され、テストされている。
しかし、社会会話は、対話者が発言、質問、回答を含む一連の発話で情報を交換するジャンルとして、非常に異なる。
共参照、楕円、調整、暗黙的かつ明示的な否定や確認といった現象はウィキペディアのテキストよりも会話において顕著である。
そこで我々は,このギャップを埋めるために,ソーシャルな会話から三重抽出したデータセットをトレーニングし,テストする試みについて述べる。
また、5つのトリプル抽出モデルを作成し、評価データでテストしました。
最高精度は完全三重奏で51.14、単発で試験すると三重奏で69.32である。
しかし、複数のターンにまたがる会話三重項のスコアははるかに低く、真の会話データから知識を抽出することがより困難であることを示している。
関連論文リスト
- Learning From Free-Text Human Feedback -- Collect New Datasets Or Extend
Existing Ones? [57.16050211534735]
一般的な対話データセットにおける自由文フィードバックのタイプと頻度について検討する。
この結果から, エラータイプ, ユーザ応答タイプ, それらの関係性など, 調査したデータセットの構成に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-10-24T12:01:11Z) - KPT: Keyword-guided Pre-training for Grounded Dialog Generation [82.68787152707455]
KPT(Guided Pre-Training)は,グラウンドドダイアログ生成のための自己教師付き事前学習手法である。
具体的には、事前訓練された言語モデルを用いて、ダイアログ内の最も不確実なトークンをキーワードとして抽出する。
我々は,対話行為,知識グラフ,ペルソナ記述,ウィキペディアの文節など,数発の知識ベース生成タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-04T04:05:01Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Dial2vec: Self-Guided Contrastive Learning of Unsupervised Dialogue
Embeddings [41.79937481022846]
教師なし対話の埋め込みを学習するタスクについて紹介する。
事前学習された単語や文の埋め込みや、事前学習された言語モデルによるエンコーディングといったトライアル的なアプローチは、実現可能であることが示されている。
本稿では,Dial2vecという自己指導型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T11:14:06Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Summary Grounded Conversation Generation [10.470157142861174]
入力として会話の要約だけを考えると、事前学習された言語モデルがどのように会話全体を生成できるかを示す。
また,会話要約データセットを生成された会話で拡張することにより,会話要約の精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-06-07T04:46:31Z) - CIDER: Commonsense Inference for Dialogue Explanation and Reasoning [31.354769524093125]
CIDER — 手動でキュレートされたデータセット — には、コモンセンス推論を用いて推論される暗黙的かつ明示的な知識三つ子という形で、ダイアディックな対話の説明が含まれている。
本データセットでは,対話レベル自然言語推論,スパン抽出,複数選択選択という3つのタスクを設定した。
トランスフォーマーモデルを用いて得られた結果は、これらのタスクが困難であることを明らかにし、将来の有望な研究の道を開く。
論文 参考訳(メタデータ) (2021-06-01T14:14:46Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - MultiTalk: A Highly-Branching Dialog Testbed for Diverse Conversations [39.81965687032923]
会話対話文のコーパスであるMultiTalkデータセットについて述べる。
高分岐環境におけるダイアログ生成の研究に複数の貢献をしている。
我々の達成課題は心の問題の挑戦的理論であり、制御可能な生成課題である。
論文 参考訳(メタデータ) (2021-02-02T02:29:40Z) - Commonsense Knowledge Mining from Term Definitions [0.20305676256390934]
辞書用語の定義を入力として,コモンセンス知識を3重にマイニングする機械学習手法について検討する。
実験の結果,用語の定義には意味的関係の3つの意味的知識が含まれていることがわかった。
論文 参考訳(メタデータ) (2021-02-01T05:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。