論文の概要: Beemo: Benchmark of Expert-edited Machine-generated Outputs
- arxiv url: http://arxiv.org/abs/2411.04032v1
- Date: Wed, 06 Nov 2024 16:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:41.832051
- Title: Beemo: Benchmark of Expert-edited Machine-generated Outputs
- Title(参考訳): Beemo: エキスパートが編集したマシン生成アウトプットのベンチマーク
- Authors: Ekaterina Artemova, Jason Lucas, Saranya Venkatraman, Jooyoung Lee, Sergei Tilga, Adaku Uchendu, Vladislav Mikhailov,
- Abstract要約: エキスパートによる機械生成出力(Beemo)のベンチマーク
本稿では,エキスパート編集機械生成出力(Beemo)のベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 5.246065742294272
- License:
- Abstract: The rapid proliferation of large language models (LLMs) has increased the volume of machine-generated texts (MGTs) and blurred text authorship in various domains. However, most existing MGT benchmarks include single-author texts (human-written and machine-generated). This conventional design fails to capture more practical multi-author scenarios, where the user refines the LLM response for natural flow, coherence, and factual correctness. Our paper introduces the Benchmark of Expert-edited Machine-generated Outputs (Beemo), which includes 6.5k texts written by humans, generated by ten instruction-finetuned LLMs, and edited by experts for various use cases, ranging from creative writing to summarization. Beemo additionally comprises 13.1k machine-generated and LLM-edited texts, allowing for diverse MGT detection evaluation across various edit types. We document Beemo's creation protocol and present the results of benchmarking 33 configurations of MGT detectors in different experimental setups. We find that expert-based editing evades MGT detection, while LLM-edited texts are unlikely to be recognized as human-written. Beemo and all materials are publicly available.
- Abstract(参考訳): 大規模言語モデル (LLMs) の急速な普及により, 機械生成テキスト (MGTs) の容量が増加し, 様々な領域におけるテキストの作者の曖昧化が進んだ。
しかし、既存のMGTベンチマークのほとんどは、シングル著者のテキスト(人間による書き起こしと機械による生成)を含んでいる。
従来の設計では、ユーザが自然流、コヒーレンス、事実的正当性のためにLLM応答を洗練させるような、より実用的な多目的シナリオを捉えることができなかった。
本稿では,10個の命令ファインタリング LLM によって生成され,クリエイティブな文章から要約まで,さまざまなユースケースのエキスパートによって編集された,人間による6.5kテキストを含む,エキスパート編集機械生成出力ベンチマーク(Beemo)を紹介する。
Beemoには13.1kのマシン生成テキストとLLM編集テキストが含まれており、様々な編集タイプでMGT検出の評価が可能である。
Beemo の生成プロトコルを文書化し,実験装置による 33 個のMGT 検出器の構成をベンチマークした結果を報告する。
専門家による編集ではMGT検出が回避されるのに対し、LLM編集されたテキストは人間の手書きと認識される可能性は低い。
ビーモとすべての素材が公開されている。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には、コンピュータビジョンに適応したDETRのような検出モデルと組み合わせて、微調整の汎用LLMを用いて、テキスト内で人工的に生成された間隔をローカライズする。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。
本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。
その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文 参考訳(メタデータ) (2024-10-22T03:21:59Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Detecting Machine-Generated Texts by Multi-Population Aware Optimization
for Maximum Mean Discrepancy [47.382793714455445]
機械生成テキスト(MGT)は、盗作、誤解を招く情報、幻覚などの重大なリスクを負う可能性がある。
MGTと人文テキストを区別することは困難である。
そこで本研究では,MDD-MPと呼ばれるMDDのテキストマルチユーザ対応最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-25T09:44:56Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text [8.290557547578146]
プリトレーニング済みのT5エンコーダとLLM埋め込みサブクラスタリングを組み合わせた,機械生成テキスト検出システムT5LLMCipherを導入する。
提案手法は,機械生成テキストの平均F1スコアが19.6%増加し,非可視ジェネレータやドメインでF1スコアが平均上昇する,最先端の一般化能力を提供する。
論文 参考訳(メタデータ) (2024-01-17T18:45:13Z) - LLM-as-a-Coauthor: Can Mixed Human-Written and Machine-Generated Text Be Detected? [13.813769457594216]
現在の研究は主に、混合シナリオに適切に対処することなく、純粋なMGT検出に焦点を当てている。
AIと人為的コンテンツの両方を含む混合テキストの形式であるmixtextを定義します。
既存の検出器はミックステキストの識別に苦慮し,特に微妙な修正やスタイル適応性に対処している。
論文 参考訳(メタデータ) (2024-01-11T14:44:08Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。