論文の概要: Different Time, Different Language: Revisiting the Bias Against Non-Native Speakers in GPT Detectors
- arxiv url: http://arxiv.org/abs/2602.05769v1
- Date: Thu, 05 Feb 2026 15:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.004421
- Title: Different Time, Different Language: Revisiting the Bias Against Non-Native Speakers in GPT Detectors
- Title(参考訳): 異なる時間、異なる言語:GPT検出器における非負話者に対するバイアスの再検討
- Authors: Adnan Al Ali, Jindřich Helcl, Jindřich Libovický,
- Abstract要約: チェコの非母語話者のテキストの難易度は、母語話者のテキストよりも低くないことを示す。
我々は3つの異なる家系の検出器を調べ、非ネイティブ話者に対して系統的な偏見は見つからない。
- 参考スコア(独自算出の注目度): 0.9440878004466183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based assistants have been widely popularised after the release of ChatGPT. Concerns have been raised about their misuse in academia, given the difficulty of distinguishing between human-written and generated text. To combat this, automated techniques have been developed and shown to be effective, to some extent. However, prior work suggests that these methods often falsely flag essays from non-native speakers as generated, due to their low perplexity extracted from an LLM, which is supposedly a key feature of the detectors. We revisit these statements two years later, specifically in the Czech language setting. We show that the perplexity of texts from non-native speakers of Czech is not lower than that of native speakers. We further examine detectors from three separate families and find no systematic bias against non-native speakers. Finally, we demonstrate that contemporary detectors operate effectively without relying on perplexity.
- Abstract(参考訳): LLMベースのアシスタントはChatGPTのリリース以降広く普及している。
人間の書き起こしと生成されたテキストの区別が難しいため、学界での誤用が懸念されている。
これに対抗するために、自動化技術が開発され、ある程度有効であることが示されている。
しかし、以前の研究では、LLMから抽出された難易度が低いため、これらの手法が生成した非ネイティブ話者からのエッセイを誤ってフラグ付けしていることがしばしば示唆されている。
私たちは2年後、特にチェコ語の設定において、これらの文を再検討します。
チェコの非母語話者のテキストの難易度は、母語話者のテキストよりも低くないことを示す。
さらに、3つの異なる家系の検出器を調べ、非ネイティブ話者に対する体系的な偏見は見つからない。
最後に, コンテンポラリー検出器がパープレキシティに頼らずに効果的に動作することを示す。
関連論文リスト
- Thai Semantic End-of-Turn Detection for Real-Time Voice Agents [0.3499870393443268]
従来のオーディオ・サイレンス・エンドポインターは数百ミリ秒の遅延を加え、ためらいや言語固有の現象の下で失敗する。
リアルタイムエージェントのためのタイ語テキストオンリー・エンド・オブ・ターン(EOT)検出に関する最初の体系的研究である。
論文 参考訳(メタデータ) (2025-10-05T03:31:59Z) - What You Read Isn't What You Hear: Linguistic Sensitivity in Deepfake Speech Detection [7.555970188701627]
我々は,オープンソースおよび商用のアンチスプーフィング検出器に対する転写レベルの逆攻撃を導入する。
攻撃の成功率は、オープンソースのディテクターとボイスで60%を超え、1つの商業的検出精度は、合成オーディオで100%からわずか32%に低下する。
その結果、純粋な音響防御を超えて、頑丈な防汚システムの設計における言語的変化を考慮する必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-23T06:06:37Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - GPT detectors are biased against non-native English writers [13.853577885942514]
我々は、ネイティブおよび非ネイティブな英語作家の筆記サンプルを用いて、広く使われているGPT検出器の性能を評価する。
これらの検出器は、非ネイティブな英語の筆記サンプルをAI生成と誤分類しているのに対し、ネイティブな筆記サンプルは正確に識別されている。
論文 参考訳(メタデータ) (2023-04-06T01:51:15Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。