論文の概要: LLM-as-a-Coauthor: The Challenges of Detecting LLM-Human Mixcase
- arxiv url: http://arxiv.org/abs/2401.05952v1
- Date: Thu, 11 Jan 2024 14:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 14:20:07.884976
- Title: LLM-as-a-Coauthor: The Challenges of Detecting LLM-Human Mixcase
- Title(参考訳): LLM-as-a-coauthor: The Challenges of Detecting LLM-Human Mixcase
- Authors: Chujie Gao, Dongping Chen, Qihui Zhang, Yue Huang, Yao Wan, Lichao Sun
- Abstract要約: 機械生成コンテンツと人間生成コンテンツの両方を含むハイブリッドテキスト形式を表現する新しい概念であるmixcaseを紹介した。
我々は,MGT検出器の有効性を評価する実験を行い,その有効性,堅牢性,性能の一般化を評価した。
この研究は、ミックスケース用に調整されたより微細な検出器が緊急に必要であることを示すもので、将来の研究に有用な洞察を提供する。
- 参考スコア(独自算出の注目度): 17.584935072725028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the remarkable development and widespread applications of large language
models (LLMs), the use of machine-generated text (MGT) is becoming increasingly
common. This trend brings potential risks, particularly to the quality and
completeness of information in fields such as news and education. Current
research predominantly addresses the detection of pure MGT without adequately
addressing mixed scenarios including AI-revised Human-Written Text (HWT) or
human-revised MGT. To confront this challenge, we introduce mixcase, a novel
concept representing a hybrid text form involving both machine-generated and
human-generated content. We collected mixcase instances generated from multiple
daily text-editing scenarios and composed MixSet, the first dataset dedicated
to studying these mixed modification scenarios. We conduct experiments to
evaluate the efficacy of popular MGT detectors, assessing their effectiveness,
robustness, and generalization performance. Our findings reveal that existing
detectors struggle to identify mixcase as a separate class or MGT, particularly
in dealing with subtle modifications and style adaptability. This research
underscores the urgent need for more fine-grain detectors tailored for mixcase,
offering valuable insights for future research. Code and Models are available
at https://github.com/Dongping-Chen/MixSet.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な開発と普及により、機械生成テキスト(MGT)の使用はますます一般的になりつつある。
この傾向は、特にニュースや教育などの分野の情報の品質と完全性に潜在的なリスクをもたらす。
近年の研究では、AI改訂HWT(Human-Written Text)や人間改訂MGT(Human-Written Text)といった混合シナリオに適切に対処することなく、純粋なMGTの検出に対処している。
この課題に対処すべく,マシン生成とヒューマン生成の両方を含むハイブリッドテキスト形式を表す新しいコンセプトであるmixcaseを紹介する。
複数の日々のテキスト編集シナリオから生成されたmixcaseインスタンスを収集し、これらの混合変更シナリオを研究するための最初のデータセットであるmixsetを組み立てた。
我々は,MGT検出器の有効性を評価し,その有効性,堅牢性,一般化性能を評価する実験を行った。
既存の検出器では,特に微妙な修正やスタイル適応性に対処するために,混合ケースを別のクラス(MGT)として識別することが困難であることが判明した。
この研究は、mixcase用に調整されたより微細な検出器の必要性を緊急に高め、将来の研究に有用な洞察を提供する。
コードとモデルはhttps://github.com/Dongping-Chen/MixSet.comで入手できる。
関連論文リスト
- M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text
Detection [70.96684450854274]
大規模言語モデル(LLM)は、機械生成テキスト(MGT)に前例のない急上昇をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
これらの内容と本物の人間生成テキストを識別し区別する必要性は、偽情報との戦いにおいて重要である。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - TextMachina: Seamless Generation of Machine-Generated Text Datasets [2.4554686192257424]
TextMachinaは、高品質でバイアスのないデータセットの作成を支援するために設計されたPythonフレームワークである。
MGTデータセット構築の固有の複雑さを抽象化する、ユーザフレンドリなパイプラインを提供する。
TextMachinaが生成したデータセットの品質は、以前の研究で評価されている。
論文 参考訳(メタデータ) (2024-01-08T15:05:32Z) - RELIC: Investigating Large Language Model Responses using
Self-Consistency [60.448187967673036]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。
本稿では,ユーザが生成したテキストの信頼性に関する洞察を得るのに役立つ対話型システムを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:55:52Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition [73.80088682784587]
MMG(Multimodal Generalization)は,特定のモダリティのデータに制限がある場合,あるいは完全に欠落する場合に,システムがどのように一般化できるかを研究することを目的としている。
MMGは2つの新しいシナリオで構成され、現実のアプリケーションにおけるセキュリティと効率の考慮をサポートするように設計されている。
新しい融合モジュールは、モダリティのドロップアウトトレーニング、コントラストベースのアライメントトレーニング、そして新しいクロスモーダル損失により、より優れた数ショット性能を実現した。
論文 参考訳(メタデータ) (2023-05-12T03:05:40Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning [14.637303913878435]
低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。
2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
論文 参考訳(メタデータ) (2022-12-20T15:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。