論文の概要: Can Humans Detect AI? Mining Textual Signals of AI-Assisted Writing Under Varying Scrutiny Conditions
- arxiv url: http://arxiv.org/abs/2604.23471v1
- Date: Sat, 25 Apr 2026 23:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.378367
- Title: Can Humans Detect AI? Mining Textual Signals of AI-Assisted Writing Under Varying Scrutiny Conditions
- Title(参考訳): 人間はAIを検出できるか? : 精査条件下でAIによる文章作成のテキスト信号のマイニング
- Authors: Daniel Tabach,
- Abstract要約: この研究は、AI検出の脅威が、人々がAIで書く方法を変え、他の人がその違いを知ることができるかどうかを問う。
2段階制御実験では、21人の参加者が遠隔作業に関する意見書を書いた。
半分はランダムにAI検出ツールでスキャンされると警告され、残り半分は警告を受けなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study asks whether the threat of AI detection changes how people write with AI, and whether other people can tell the difference. In a two-phase controlled experiment, 21 participants wrote opinion pieces on remote work using an AI chatbot. Half were randomly warned that their submission would be scanned by an AI detection tool. The other half received no warning. Both groups had access to the same chatbot. In Phase 2, 251 independent judges evaluated 1,999 paired comparisons, each time choosing which document in the pair was written by a human. Judges were not told that both writers had access to AI. Across all evaluations, judges selected the warned writer's document as human 54.13% of the time versus 45.87% for the unwarned writer. A two-sided binomial test rejects chance guessing at p = 0.000243, and the result holds across both writing stances. Yet on every measurable text feature extracted, including AI overlap scores, lexical diversity, sentence structure, and pronoun usage, the two groups were indistinguishable. The judges are picking up on something that feature-based methods do not capture.
- Abstract(参考訳): この研究は、AI検出の脅威が、人々がAIで書く方法を変え、他の人がその違いを知ることができるかどうかを問う。
二相制御実験では、21人の参加者がAIチャットボットを使用してリモートワークに関する意見書を書いた。
半数は、AI検出ツールで申請をスキャンすると無作為に警告された。
残り半分は警告を受けなかった。
どちらのグループも同じチャットボットにアクセスできた。
フェーズ2では、251人の独立した裁判官が1,999個のペア比較を評価し、そのペア内のどの文書が人間によって書かれたかを選択した。
判事は、両方の作家がAIにアクセスできることを告げられませんでした。
あらゆる評価において、審査員は警告された作家の文書を54.13%の人間として選定し、警告なしの作家は45.87%とした。
両面二項検定は、p = 0.000243 の確率を推測することを拒否し、結果は両方の書記姿勢にまたがる。
しかし、AIオーバーラップスコア、語彙多様性、文構造、代名詞使用率など、すべての可測テキストの特徴から抽出された2つのグループは区別不能であった。
審査員は、機能ベースのメソッドが捉えないものを拾い上げている。
関連論文リスト
- Hallucination vs interpretation: rethinking accuracy and precision in AI-assisted data extraction for knowledge synthesis [0.9898534984111934]
我々は,大規模言語モデル(LLM)を用いてデータ抽出を自動化する抽出プラットフォームを開発した。
我々は、AIを187の出版物で人間の反応と比較し、スコーピングレビューから17の質問を抽出した。
AIの多様性は幻覚よりも解釈可能性に依存している。
論文 参考訳(メタデータ) (2025-08-13T03:33:30Z) - Assessing GPTZero's Accuracy in Identifying AI vs. Human-Written Essays [0.0]
GPTZeroは最も使われているAI検出器だが、人間によるテキストの識別の信頼性は限られている。
AIが生成した論文の大半が正確に検出され(91-100%のAIが信じていた世代)、一方で人間が生成したエッセイは変動した。
これらの結果は、GPTZeroは純粋にAI生成されたコンテンツを検出するのに有効であるが、人間によるテキストの識別の信頼性は限られていることを示唆している。
論文 参考訳(メタデータ) (2025-06-30T04:53:27Z) - AI Debate Aids Assessment of Controversial Claims [73.8907110799657]
我々は、AI論争が、議論の的になっている事実性主張の側面に対立する2つのAIシステムを議論させることで、偏見のある裁判官を真実に導くことができるかどうかを調査する。
研究Iでは、議論は人間の判断精度と信頼性の校正を継続的に改善し、コンサルタントを上回ります。
研究IIでは、人間のような人格を持つAI裁判官は、人格を持たない人格(70.1%)やデフォルトのAI裁判官(69.8%)よりも高い精度(78.5%)を達成する。
これらの調査結果は、AIの議論が、競争対象ドメインにおけるスケーラブルでバイアス耐性のある監視への有望な道であることを示している。
論文 参考訳(メタデータ) (2025-06-02T19:01:53Z) - Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。
我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - Human Bias in the Face of AI: Examining Human Judgment Against Text Labeled as AI Generated [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - GPT-4 is judged more human than humans in displaced and inverted Turing tests [0.7437224586066946]
毎日のAI検出は、オンライン会話における人とAIの差別化を必要とする。
我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。
論文 参考訳(メタデータ) (2024-07-11T20:28:24Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。