論文の概要: CRYPTEXT: Database and Interactive Toolkit of Human-Written Text
Perturbations in the Wild
- arxiv url: http://arxiv.org/abs/2301.06494v1
- Date: Mon, 16 Jan 2023 16:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:40:39.557053
- Title: CRYPTEXT: Database and Interactive Toolkit of Human-Written Text
Perturbations in the Wild
- Title(参考訳): CRYPTEXT:野生における人文文摂動のデータベースとインタラクティブツールキット
- Authors: Thai Le, Ye Yiran, Yifan Hu, Dongwon Lee
- Abstract要約: 暗号通貨は、検索、摂動、正規化(すなわち非摂動)に役立つ。
CRYPTEXTはまた、オンラインでテキストの摂動を監視し分析するためのインタラクティブインターフェースを提供する。
- 参考スコア(独自算出の注目度): 18.57127376793257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User-generated textual contents on the Internet are often noisy, erroneous,
and not in correct forms in grammar. In fact, some online users choose to
express their opinions online through carefully perturbed texts, especially in
controversial topics (e.g., politics, vaccine mandate) or abusive contexts
(e.g., cyberbullying, hate-speech). However, to the best of our knowledge,
there is no framework that explores these online ``human-written" perturbations
(as opposed to algorithm-generated perturbations). Therefore, we introduce an
interactive system called CRYPTEXT. CRYPTEXT is a data-intensive application
that provides the users with a database and several tools to extract and
interact with human-written perturbations. Specifically, CRYPTEXT helps look
up, perturb, and normalize (i.e., de-perturb) texts. CRYPTEXT also provides an
interactive interface to monitor and analyze text perturbations online. A short
demo video is available at: https://youtu.be/8WT3G8xjIoI
- Abstract(参考訳): インターネット上のユーザ生成テキストコンテンツは、しばしば騒々しく、誤ったものであり、文法の正しい形式ではない。
事実、一部のオンラインユーザーは、注意深く混乱したテキストを通じて、特に議論を呼んでいる話題(政治、ワクチンの委任など)や虐待的な文脈(サイバーいじめ、ヘイトスピーチなど)において、オンラインで意見を表明することを選んだ。
しかしながら、我々の知る限りでは、これらのオンラインの ``human-written' 摂動を探索するフレームワークは存在しない(アルゴリズム生成摂動とは対照的に)。
そこで我々は,CRYPTEXTと呼ばれる対話型システムを導入する。
CRYPTEXTは、データ集約型アプリケーションで、データベースと、人間の手書きの摂動を抽出し、操作するためのツールをユーザに提供する。
具体的には、CRYPTEXTはテキストの検索、パーターブ、正規化(de-perturb)を支援する。
CRYPTEXTはまた、オンラインでテキストの摂動を監視し分析するためのインタラクティブインターフェースを提供する。
簡単なデモビデオは、https://youtu.be/8WT3G8xjIoIで公開されている。
関連論文リスト
- User Privacy Harms and Risks in Conversational AI: A Proposed Framework [1.8416014644193066]
本研究は、テキストベースのインタラクションにおいて、9つのプライバシ障害と9つのプライバシリスクを特定する。
目標は、開発者、政策立案者、研究者に会話AIの責任と安全な実装のためのツールを提供することだ。
論文 参考訳(メタデータ) (2024-02-15T05:21:58Z) - Learning From Free-Text Human Feedback -- Collect New Datasets Or Extend
Existing Ones? [57.16050211534735]
一般的な対話データセットにおける自由文フィードバックのタイプと頻度について検討する。
この結果から, エラータイプ, ユーザ応答タイプ, それらの関係性など, 調査したデータセットの構成に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-10-24T12:01:11Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text
Ambiguation to Expand Mental Health Care Delivery [52.73936514734762]
ChatGPTは人間のような対話を生成する能力で人気を集めている。
データに敏感なドメインは、プライバシとデータ所有に関する懸念から、ChatGPTを使用する際の課題に直面している。
ユーザのプライバシーを守るためのテキスト曖昧化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T02:09:52Z) - ReDDIT: Regret Detection and Domain Identification from Text [62.997667081978825]
本稿では,Redditテキストのデータセットを,Regret by Action,Regret by Inaction,No Regretの3つのクラスに分類した。
以上の結果から,Reddit利用者は過去の行動,特に関係領域における後悔を表明しがちであることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:41:57Z) - YZR-net : Self-supervised Hidden representations Invariant to
Transformations for profanity detection [1.0705399532413613]
YZR-Netは、チャットで使われる挑発的な単語を堅牢に検出できる自己教師型フレームワークである。
我々の誇張検出フレームワークは言語に依存しておらず、英語だけでなく、翻訳されたHinglishでも乱用を処理できる。
論文 参考訳(メタデータ) (2022-11-22T05:35:18Z) - Human-Machine Collaboration Approaches to Build a Dialogue Dataset for
Hate Speech Countering [15.905165019585942]
本稿では,機械生成対話に対する人間の専門家アノテータの介入を組み合わせたダイアラルデータ収集のためのハイブリッド手法を提案する。
この研究の結果、DIALOCONANは、憎悪者とNGOオペレーターの間の3000以上の架空のマルチターン対話からなる最初のデータセットであり、6つのヘイトターゲットをカバーしている。
論文 参考訳(メタデータ) (2022-11-07T10:37:13Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z) - A Review on Text-Based Emotion Detection -- Techniques, Applications,
Datasets, and Future Directions [4.257210316104905]
本稿では,2005年から2021年にかけてのテキストによる感情検出において,既存の文献の体系的な文献レビューを行う。
このレビューでは、IEEE、Science Direct、Scoopus、Web of Scienceの63の研究論文を精査し、4つの主要な研究課題に対処している。
様々な感情モデル、テクニック、特徴抽出方法、データセット、今後の方向性に関する研究課題についても概説した。
論文 参考訳(メタデータ) (2022-04-26T15:20:00Z) - Online Conversation Disentanglement with Pointer Networks [13.063606578730449]
本稿では,会話の絡み合わせのためのエンドツーエンドのオンラインフレームワークを提案する。
我々は、タイムスタンプ、話者、メッセージテキストを含む全発話を埋め込む新しい手法を設計する。
Ubuntu IRCデータセットを用いた実験により,提案手法はリンクと会話の予測タスクにおいて,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:43:07Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。