論文の概要: Different Time, Different Language: Revisiting the Bias Against Non-Native Speakers in GPT Detectors
- arxiv url: http://arxiv.org/abs/2602.05769v1
- Date: Thu, 05 Feb 2026 15:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.004421
- Title: Different Time, Different Language: Revisiting the Bias Against Non-Native Speakers in GPT Detectors
- Title(参考訳): 異なる時間、異なる言語:GPT検出器における非負話者に対するバイアスの再検討
- Authors: Adnan Al Ali, Jindřich Helcl, Jindřich Libovický,
- Abstract要約: チェコの非母語話者のテキストの難易度は、母語話者のテキストよりも低くないことを示す。
我々は3つの異なる家系の検出器を調べ、非ネイティブ話者に対して系統的な偏見は見つからない。
- 参考スコア(独自算出の注目度): 0.9440878004466183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based assistants have been widely popularised after the release of ChatGPT. Concerns have been raised about their misuse in academia, given the difficulty of distinguishing between human-written and generated text. To combat this, automated techniques have been developed and shown to be effective, to some extent. However, prior work suggests that these methods often falsely flag essays from non-native speakers as generated, due to their low perplexity extracted from an LLM, which is supposedly a key feature of the detectors. We revisit these statements two years later, specifically in the Czech language setting. We show that the perplexity of texts from non-native speakers of Czech is not lower than that of native speakers. We further examine detectors from three separate families and find no systematic bias against non-native speakers. Finally, we demonstrate that contemporary detectors operate effectively without relying on perplexity.
- Abstract(参考訳): LLMベースのアシスタントはChatGPTのリリース以降広く普及している。
人間の書き起こしと生成されたテキストの区別が難しいため、学界での誤用が懸念されている。
これに対抗するために、自動化技術が開発され、ある程度有効であることが示されている。
しかし、以前の研究では、LLMから抽出された難易度が低いため、これらの手法が生成した非ネイティブ話者からのエッセイを誤ってフラグ付けしていることがしばしば示唆されている。
私たちは2年後、特にチェコ語の設定において、これらの文を再検討します。
チェコの非母語話者のテキストの難易度は、母語話者のテキストよりも低くないことを示す。
さらに、3つの異なる家系の検出器を調べ、非ネイティブ話者に対する体系的な偏見は見つからない。
最後に, コンテンポラリー検出器がパープレキシティに頼らずに効果的に動作することを示す。
関連論文リスト
- Thai Semantic End-of-Turn Detection for Real-Time Voice Agents [0.3499870393443268]
従来のオーディオ・サイレンス・エンドポインターは数百ミリ秒の遅延を加え、ためらいや言語固有の現象の下で失敗する。
リアルタイムエージェントのためのタイ語テキストオンリー・エンド・オブ・ターン(EOT)検出に関する最初の体系的研究である。
論文 参考訳(メタデータ) (2025-10-05T03:31:59Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - What You Read Isn't What You Hear: Linguistic Sensitivity in Deepfake Speech Detection [7.555970188701627]
我々は,オープンソースおよび商用のアンチスプーフィング検出器に対する転写レベルの逆攻撃を導入する。
攻撃の成功率は、オープンソースのディテクターとボイスで60%を超え、1つの商業的検出精度は、合成オーディオで100%からわずか32%に低下する。
その結果、純粋な音響防御を超えて、頑丈な防汚システムの設計における言語的変化を考慮する必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-23T06:06:37Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - ESPERANTO: Evaluating Synthesized Phrases to Enhance Robustness in AI Detection for Text Origination [1.8418334324753884]
本稿では,検出を回避する新しい手法としてバックトランスレーションを紹介する。
本稿では、これらの裏書きされたテキストを組み合わせて、オリジナルのAI生成テキストの操作されたバージョンを生成するモデルを提案する。
我々は,この手法を,オープンソースと3つのプロプライエタリシステムを含む9つのAI検出器上で評価する。
論文 参考訳(メタデータ) (2024-09-22T01:13:22Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Evaluating Methods for Ground-Truth-Free Foreign Accent Conversion [43.97757799751764]
外部アクセント変換(英: Foreign accent conversion, FAC)は、非母語話者のアクセント付き音声を、同じ話者アイデンティティを持つ母語話者に変換することを目的とした、音声変換(VC)の特殊な応用である。
本研究は,最近提案された3つの基本構造のないFACの評価手法であり,これらすべては,アクセントを適切に変換し,話者同一性を制御するために,シーケンス・ツー・シーケンス(seq2seq)と非並列VCモデルのパワーを活用することを目的としている。
論文 参考訳(メタデータ) (2023-09-05T11:22:08Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - GPT detectors are biased against non-native English writers [13.853577885942514]
我々は、ネイティブおよび非ネイティブな英語作家の筆記サンプルを用いて、広く使われているGPT検出器の性能を評価する。
これらの検出器は、非ネイティブな英語の筆記サンプルをAI生成と誤分類しているのに対し、ネイティブな筆記サンプルは正確に識別されている。
論文 参考訳(メタデータ) (2023-04-06T01:51:15Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Cross-Lingual Speaker Identification Using Distant Supervision [84.51121411280134]
本稿では,文脈推論の欠如や言語間一般化の低さといった問題に対処する話者識別フレームワークを提案する。
その結果,2つの英語話者識別ベンチマークにおいて,従来の最先端手法よりも9%の精度,5%の精度で性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T20:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。