Fugu-MT 論文翻訳(概要): Applying IRT to Distinguish Between Human and Generative AI Responses to Multiple-Choice Assessments

論文の概要: Applying IRT to Distinguish Between Human and Generative AI Responses to Multiple-Choice Assessments

arxiv url: http://arxiv.org/abs/2412.02713v2
Date: Thu, 12 Dec 2024 13:28:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 18:09:39.238719
Title: Applying IRT to Distinguish Between Human and Generative AI Responses to Multiple-Choice Assessments
Title（参考訳）: IRTを人間とジェネレーティブAIの応答の区別に応用したマルチコースアセスメント
Authors: Alona Strugatski, Giora Alexandron,
Abstract要約: 評価に複数の選択質問が広く使用されているにもかかわらず、AI不正の検出はほとんど調査されていない。本稿では,このギャップに対処するための項目応答理論の適用法を提案する。我々のアプローチは、人工知能と人間の知性が異なる応答パターンを示すという仮定に基づいている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Generative AI is transforming the educational landscape, raising significant concerns about cheating. Despite the widespread use of multiple-choice questions in assessments, the detection of AI cheating in MCQ-based tests has been almost unexplored, in contrast to the focus on detecting AI-cheating on text-rich student outputs. In this paper, we propose a method based on the application of Item Response Theory to address this gap. Our approach operates on the assumption that artificial and human intelligence exhibit different response patterns, with AI cheating manifesting as deviations from the expected patterns of human responses. These deviations are modeled using Person-Fit Statistics. We demonstrate that this method effectively highlights the differences between human responses and those generated by premium versions of leading chatbots (ChatGPT, Claude, and Gemini), but that it is also sensitive to the amount of AI cheating in the data. Furthermore, we show that the chatbots differ in their reasoning profiles. Our work provides both a theoretical foundation and empirical evidence for the application of IRT to identify AI cheating in MCQ-based assessments.
Abstract（参考訳）: ジェネレーティブAIは、教育の状況を変え、不正行為に関する重要な懸念を提起している。評価に複数の選択質問が広く使用されているにもかかわらず、MCQベースのテストでAI不正を検出することは、テキストリッチな学生出力に対するAI攻撃の検出に重点を置いているのとは対照的に、ほとんど調査されていない。本稿では,このギャップに対処するための項目応答理論の適用法を提案する。我々のアプローチは、人工知能と人間の知性は異なる反応パターンを示すという仮定に基づいており、AIは人間の反応の予測パターンからの逸脱として浮かび上がっている。これらの偏差はPerson-Fit Statisticsを用いてモデル化される。本手法は,チャットボットの上位バージョン(ChatGPT,Claude,Gemini)と人間の反応の違いを効果的に強調するが,データ中のAI不正の量にも敏感であることを示す。さらに,チャットボットは推論プロファイルが異なることを示す。我々の研究は、MCQに基づく評価において、AI不正を識別するためのIRTの応用に関する理論的基礎と実証的な証拠の両方を提供する。

関連論文リスト

Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead [2.809966405091883]
我々は、ベンチマークのパフォーマンスを人間のような特性の測定として解釈することは、十分な理論的、実証的な正当化を欠いていると論じる。私たちは、AIシステムに適した、原則化されたAI固有の評価フレームワークの開発を呼びかけます。
論文参考訳（メタデータ） (2025-07-30T18:14:35Z)
Perceptual Quality Assessment for Embodied AI [66.96928199019129]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文参考訳（メタデータ） (2025-05-22T15:51:07Z)
Ethics and Persuasion in Reinforcement Learning from Human Feedback: A Procedural Rhetorical Approach [3.2228025627337864]
2022年以降、ChatGPTやClaudeのような生成AIチャットボットのバージョンは、Reinforcement Learning from Human Feedbackと呼ばれる特殊なテクニックを使って訓練されている。本稿では,RLHFの強化された生成AIによって現在再形成されている中心的な手順と過程の修辞的分析について述べる。
論文参考訳（メタデータ） (2025-05-14T17:29:19Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
誤分類は、偽の盗作行為の告発や、オンラインコンテンツにおけるAIの普及に関する誤解を招く可能性がある。我々は、AI-Polished-Text Evaluationデータセットを用いて、最先端の11のAIテキスト検出を体系的に評価した。我々の発見によると、検出器は、最小限に磨き上げられたテキストをAI生成と誤分類し、AIの関与度を区別し、古いモデルと小さなモデルに偏見を示す。
論文参考訳（メタデータ） (2025-02-21T18:45:37Z)
The Imitation Game for Educational AI [23.71250100390303]
本稿では,2相チューリング様試験に基づく新しい評価フレームワークを提案する。フェーズ1では、学生は質問に対するオープンな回答を提供し、自然な誤解を明らかにします。フェーズ2では、AIと人間の専門家の両方が、各学生の特定のミスを条件に、新しい関連する質問に気を散らす。
論文参考訳（メタデータ） (2025-02-21T01:14:55Z)
DAMAGE: Detecting Adversarially Modified AI Generated Text [0.13108652488669736]
既存のAI検出器の多くが、人間化されたテキストを検出できないことを示す。偽陽性率を低く保ちながら、人間化されたAIテキストを検出する頑健なモデルを実証する。
論文参考訳（メタデータ） (2025-01-06T23:43:49Z)
Validity Arguments For Constructed Response Scoring Using Generative Artificial Intelligence Applications [0.0]
ジェネレーティブAIは、従来のAIスコアリングにおける手作り機能に必要な労力を減らすため、特に魅力的である。我々は,人間の評価,特徴に基づく自然言語処理AIスコアリングエンジン,生成AIを用いたスコアリングシステムに必要な妥当性証拠を比較した。
論文参考訳（メタデータ） (2025-01-04T16:59:29Z)
Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。 GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文参考訳（メタデータ） (2024-10-09T03:53:26Z)
Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文参考訳（メタデータ） (2024-09-29T04:31:45Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
Towards ethical multimodal systems [10.518452055021488]
AIアライメントの新たな分野は、AIシステムが人間の価値を反映することを目指している。本稿では,テキストと画像の両方を含むマルチモーダルAIシステムの倫理性を評価することに焦点を当てる。
論文参考訳（メタデータ） (2023-04-26T18:11:33Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文参考訳（メタデータ） (2022-11-23T16:16:52Z)
Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。 AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文参考訳（メタデータ） (2022-04-11T14:36:39Z)
A Turing Test for Transparency [0.0]
説明可能な人工知能(XAI)の中心的な目標は、人間とAIのインタラクションにおける信頼関係を改善することである。最近の実証的な証拠は、説明が反対の効果を持つことを示している。この効果はXAIの目的に挑戦し、透明なAI手法の責任ある使用には、人間が人間の説明から生成された機械を区別する能力を考慮する必要があることを示唆している。
論文参考訳（メタデータ） (2021-06-21T20:09:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。