論文の概要: TexPrax: A Messaging Application for Ethical, Real-time Data Collection
and Annotation
- arxiv url: http://arxiv.org/abs/2208.07846v1
- Date: Tue, 16 Aug 2022 17:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:26:02.563462
- Title: TexPrax: A Messaging Application for Ethical, Real-time Data Collection
and Annotation
- Title(参考訳): TexPrax: 倫理的でリアルタイムなデータ収集とアノテーションのためのメッセージングアプリケーション
- Authors: Lorenz Stangier, Ji-Ung Lee, Yuxi Wang, Marvin M\"uller, Nicholas
Frick, Joachim Metternich, and Iryna Gurevych
- Abstract要約: TexPraxは、仕事関連のチャットで発生する問題、原因、ソリューションを収集し、注釈付けするメッセージングシステムである。
データプライバシとセキュリティ規則に従うために、エンドツーエンドのメッセージ暗号化を使用します。
全体として,1027の文を含む201のタスク指向ドイツ語対話を文レベルのエキスパートアノテーションで収集する。
- 参考スコア(独自算出の注目度): 44.65831929961655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Collecting and annotating task-oriented dialog data is difficult, especially
for highly specific domains that require expert knowledge. At the same time,
informal communication channels such as instant messengers are increasingly
being used at work. This has led to a lot of work-relevant information that is
disseminated through those channels and needs to be post-processed manually by
the employees. To alleviate this problem, we present TexPrax, a messaging
system to collect and annotate problems, causes, and solutions that occur in
work-related chats. TexPrax uses a chatbot to directly engage the employees to
provide lightweight annotations on their conversation and ease their
documentation work. To comply with data privacy and security regulations, we
use an end-to-end message encryption and give our users full control over their
data which has various advantages over conventional annotation tools. We
evaluate TexPrax in a user-study with German factory employees who ask their
colleagues for solutions on problems that arise during their daily work.
Overall, we collect 201 task-oriented German dialogues containing 1,027
sentences with sentence-level expert annotations. Our data analysis also
reveals that real-world conversations frequently contain instances with
code-switching, varying abbreviations for the same entity, and dialects which
NLP systems should be able to handle.
- Abstract(参考訳): タスク指向ダイアログデータの収集と注釈付けは,特に専門知識を必要とする専門分野において困難である。
同時に、インスタントメッセンジャーのような非公式なコミュニケーションチャネルが仕事でますます使われています。
これにより、これらのチャネルを通じて分散され、従業員によって手作業で処理される多くの作業関連情報がもたらされました。
この問題を軽減するために,作業関連チャットで発生する問題や原因,ソリューションを収集・注釈するメッセージングシステムであるTexPraxを提案する。
TexPraxはチャットボットを使用して、従業員に直接関与し、会話に軽量なアノテーションを提供し、ドキュメント作業を容易にする。
データプライバシとセキュリティ規則に従うため、エンド・ツー・エンドのメッセージ暗号化を使用して、従来のアノテーションツールよりもさまざまな利点があるデータを完全にコントロールします。
TexPraxをドイツの工場従業員とのユーザスタディで評価し、日々の作業中に発生する問題に対する解決策を同僚に尋ねる。
総じて,1027文を含むタスク指向のドイツ語対話201文を文レベルの専門家アノテーションで収集した。
我々のデータ分析により、実世界の会話には、コードスイッチング、同一エンティティの様々な略語、NLPシステムが扱うべき方言が頻繁に含まれていることが明らかになった。
関連論文リスト
- WordDecipher: Enhancing Digital Workspace Communication with Explainable AI for Non-native English Speakers [11.242099987201573]
非ネイティブ英語話者(NNES)は、デジタルワークスペースコミュニケーションにおける課題に直面している。
現在のAI支援書記ツールは、流布強化と書き直し提案を備えている。
我々は、デジタルワークスペースコミュニケーションを強化するための説明可能なAI支援記述ツールであるWordDecipherを提案する。
論文 参考訳(メタデータ) (2024-04-10T13:40:29Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Using Pause Information for More Accurate Entity Recognition [6.912121934692421]
停止時間に関する言語学的観察は,機械学習言語理解タスクの精度向上に有効であることを示す。
テキストベースのNLUとは対照的に、文脈埋め込みを豊かにするために停止期間を適用する。
以上の結果から,提案した新しい埋め込みは,フランス語の3つの領域において,相対誤差率を最大8%向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-27T17:47:21Z) - Disentangling Online Chats with DAG-Structured LSTMs [55.33014148383343]
DAG-LSTMはTree-LSTMの一般化であり、間接的な非循環的依存関係を処理できる。
提案する新モデルでは,リプライ・トゥ・リレーション(Repend-to-Relation)を回復する作業において,アート・ステータスの状態を達成できることが示される。
論文 参考訳(メタデータ) (2021-06-16T18:00:00Z) - Online Conversation Disentanglement with Pointer Networks [13.063606578730449]
本稿では,会話の絡み合わせのためのエンドツーエンドのオンラインフレームワークを提案する。
我々は、タイムスタンプ、話者、メッセージテキストを含む全発話を埋め込む新しい手法を設計する。
Ubuntu IRCデータセットを用いた実験により,提案手法はリンクと会話の予測タスクにおいて,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:43:07Z) - Carbon to Diamond: An Incident Remediation Assistant System From Site
Reliability Engineers' Conversations in Hybrid Cloud Operations [6.552364911860235]
会話チャットに存在する症状や課題などの正しいキーワードやアーティファクトを特定することが重要である。
本稿では,会話チャネルをタップして,さまざまな学習手法を用いて重要な成果物を理解・抽出するフレームワークを構築する。
論文 参考訳(メタデータ) (2020-10-12T09:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。