論文の概要: Spot the bot: Coarse-Grained Partition of Semantic Paths for Bots and
Humans
- arxiv url: http://arxiv.org/abs/2402.17392v1
- Date: Tue, 27 Feb 2024 10:38:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:55:54.157699
- Title: Spot the bot: Coarse-Grained Partition of Semantic Paths for Bots and
Humans
- Title(参考訳): spot the bot: ボットと人間のセマンティクスパスの粒度の粗い分割
- Authors: Vasilii A. Gromov, Alexandra S. Kogan
- Abstract要約: 本稿では,人書きテキストとボット生成テキストのセマンティックパスの粗粒度分割構造の比較に焦点をあてる。
意味構造が言語によって異なる可能性があるため、ロシア語、英語、ドイツ語、ベトナム語を調査する。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, technology is rapidly advancing: bots are writing comments,
articles, and reviews. Due to this fact, it is crucial to know if the text was
written by a human or by a bot. This paper focuses on comparing structures of
the coarse-grained partitions of semantic paths for human-written and
bot-generated texts. We compare the clusterizations of datasets of n-grams from
literary texts and texts generated by several bots. The hypothesis is that the
structures and clusterizations are different. Our research supports the
hypothesis. As the semantic structure may be different for different languages,
we investigate Russian, English, German, and Vietnamese languages.
- Abstract(参考訳): 現在、テクノロジーは急速に進歩している。ボットはコメント、記事、レビューを書いている。
この事実から、テキストが人間が書いたものなのか、ボットによるものなのかを知ることが重要である。
本稿では,人書きテキストとボット生成テキストのセマンティックパスの粗粒度分割構造の比較に焦点をあてる。
複数のボットが生成した文文テキストとテキストからn-gramのデータセットのクラスタ化を比較した。
仮説は、構造とクラスタ化が異なることである。
我々の研究は仮説を支持している。
意味構造が言語によって異なる可能性があるため、ロシア語、英語、ドイツ語、ベトナム語を調査する。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Sentiment analysis and random forest to classify LLM versus human source applied to Scientific Texts [0.0]
自動テキスト生成エンジンや人間からのテキストを分類する新しい手法を提案する。
4つの異なる感情レキシコンを使用して、生成された多くの新機能を機械学習ランダムな森林方法論に供給し、そのようなモデルをトレーニングした。
結果は、人間がテキストのソースであるはずの環境において、これが詐欺を検知するための有望な研究ラインであることに非常に説得力があるように思える。
論文 参考訳(メタデータ) (2024-04-05T16:14:36Z) - Spot the Bot: Distinguishing Human-Written and Bot-Generated Texts Using
Clustering and Information Theory Techniques [0.0]
教師なし学習手法に基づくボット識別アルゴリズムを提案する。
文学作品がより複雑であるのに対して、生成されたテキストはよりカオス的である傾向にある。
また、人間のテキストのクラスタリングは、ボット生成テキストのよりコンパクトでより分離されたクラスタと比較してファジエクラスタをもたらすことを示した。
論文 参考訳(メタデータ) (2023-11-19T22:29:15Z) - Bot or Human? Detecting ChatGPT Imposters with A Single Question [29.231261118782925]
大規模言語モデル(LLM)は、最近、自然言語の理解と生成において印象的な能力を示した。
不正行為やサービス拒否攻撃など、悪意のある目的のために悪用される可能性があるという懸念がある。
単一問合せと応答による大規模言語モデル認証をオンラインで検出するFLAIRというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-10T19:09:24Z) - A comparison of several AI techniques for authorship attribution on
Romanian texts [0.0]
複数の著者が書いた文章を分類するAI技術の比較を行う。
また、ルーマニア語で書かれたテキストからなる新しいデータセットを導入し、アルゴリズムを実行した。
論文 参考訳(メタデータ) (2022-11-09T20:24:48Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals [69.76097138157816]
確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
論文 参考訳(メタデータ) (2021-07-12T20:47:08Z) - Detecting Bot-Generated Text by Characterizing Linguistic Accommodation
in Human-Bot Interactions [9.578008322407928]
言語生成モデルの民主化は、悪質な活動のために、人間のようなテキストを大規模に生成しやすくする。
人々がボットとどのように相互作用するかを理解し、ボット生成テキストを検出する方法を開発することが不可欠である。
本稿では,ボットが生成するテキスト検出手法が,人々の反応に関する情報を使用する場合,データセットやモデル間でより堅牢であることを示す。
論文 参考訳(メタデータ) (2021-06-02T14:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。