論文の概要: Detecting LLM-Generated Korean Text through Linguistic Feature Analysis
- arxiv url: http://arxiv.org/abs/2503.00032v2
- Date: Tue, 04 Mar 2025 06:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:11:45.194702
- Title: Detecting LLM-Generated Korean Text through Linguistic Feature Analysis
- Title(参考訳): 言語的特徴分析によるLLM生成韓国語テキストの検出
- Authors: Shinwoo Park, Shubin Kim, Do-Kyung Kim, Yo-Sub Han,
- Abstract要約: LLM生成韓国語テキストを検出するための最初のベンチマークデータセットであるKatFishを紹介する。
音声の間隔パターン,部分音声の多様性,コンマ使用法を調べた結果,人文文とLLM生成韓国語文との言語的差異が明らかになった。
KatFishNetはAUROCよりも平均19.78%高い。
- 参考スコア(独自算出の注目度): 3.224880576815583
- License:
- Abstract: The rapid advancement of large language models (LLMs) increases the difficulty of distinguishing between human-written and LLM-generated text. Detecting LLM-generated text is crucial for upholding academic integrity, preventing plagiarism, protecting copyrights, and ensuring ethical research practices. Most prior studies on detecting LLM-generated text focus primarily on English text. However, languages with distinct morphological and syntactic characteristics require specialized detection approaches. Their unique structures and usage patterns can hinder the direct application of methods primarily designed for English. Among such languages, we focus on Korean, which has relatively flexible spacing rules, a rich morphological system, and less frequent comma usage compared to English. We introduce KatFish, the first benchmark dataset for detecting LLM-generated Korean text. The dataset consists of text written by humans and generated by four LLMs across three genres. By examining spacing patterns, part-of-speech diversity, and comma usage, we illuminate the linguistic differences between human-written and LLM-generated Korean text. Building on these observations, we propose KatFishNet, a detection method specifically designed for the Korean language. KatFishNet achieves an average of 19.78% higher AUROC compared to the best-performing existing detection method. Our code and data are available at https://github.com/Shinwoo-Park/detecting_llm_generated_korean_text_through_linguistic_analysis.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、人書きテキストとLLM生成テキストを区別することの難しさを増大させる。
LLM生成テキストの検出は、学術的完全性を維持し、盗作を防ぎ、著作権を保護し、倫理的な研究の慣行を確保するために不可欠である。
LLM生成テキストの検出に関するほとんどの先行研究は、主に英語のテキストに焦点を当てている。
しかし、異なる形態的特徴と構文的特徴を持つ言語は、特別な検出アプローチを必要とする。
彼らのユニークな構造と使用パターンは、主に英語用に設計された手法の直接的な適用を妨げる可能性がある。
このような言語の中で,比較的フレキシブルなスペーシング規則,豊富な形態体系,コンマ使用頻度の低い韓国語に着目した。
LLM生成韓国語テキストを検出するための最初のベンチマークデータセットであるKatFishを紹介する。
データセットは、人間によって書かれたテキストで構成され、3つのジャンルにわたる4つのLCMによって生成される。
音声の間隔パターン,部分音声の多様性,コンマ使用法を調べた結果,人文文とLLM生成韓国語文との言語的差異が明らかになった。
これらの観測に基づいて,韓国語に特化して設計された検出手法であるKatFishNetを提案する。
KatFishNetはAUROCよりも平均19.78%高い。
私たちのコードとデータはhttps://github.com/Shinwoo-Park/detecting_llm_ generated_korean_text_through_linguistic_analysisで公開されています。
関連論文リスト
- "I know myself better, but not really greatly": Using LLMs to Detect and Explain LLM-Generated Texts [10.454446545249096]
大規模言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示した。
本稿では,LLMによる人為的テキストの検出と説明機能について検討する。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - MultiSocial: Multilingual Benchmark of Machine-Generated Text Detection of Social-Media Texts [0.6053347262128919]
MultiSocial データセットには 472,097 のテキストが含まれており、そのうち約58k が人文で書かれている。
このベンチマークを用いて、ゼロショットの既存の検出手法と微調整形式を比較した。
以上の結果から,微調整された検出器はソーシャルメディア上でのトレーニングに問題はないことが示唆された。
論文 参考訳(メタデータ) (2024-06-18T12:26:09Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - LLM-Detector: Improving AI-Generated Chinese Text Detection with
Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。
LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文 参考訳(メタデータ) (2024-02-02T05:54:12Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。