Fugu-MT 論文翻訳(概要): Test Security in Remote Testing Age: Perspectives from Process Data Analytics and AI

論文の概要: Test Security in Remote Testing Age: Perspectives from Process Data Analytics and AI

arxiv url: http://arxiv.org/abs/2411.13699v1
Date: Wed, 20 Nov 2024 20:38:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.655389
Title: Test Security in Remote Testing Age: Perspectives from Process Data Analytics and AI
Title（参考訳）: リモートテスト時代のテストセキュリティ - プロセスデータ分析とAIの視点から
Authors: Jiangang Hao, Michael Fauss,
Abstract要約: 新型コロナウイルス(COVID-19)のパンデミックは、遠隔操作による高リスク評価の導入と受け入れを加速させている。クリックストリームプロセスデータに基づくデータ分析とAIメソッドは、テスト実行プロセスに関する深い洞察を得ることができます。この章は現実世界の例を使って、これが事実であることを示す。
参考スコア（独自算出の注目度）: 0.14732811715354452
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The COVID-19 pandemic has accelerated the implementation and acceptance of remotely proctored high-stake assessments. While the flexible administration of the tests brings forth many values, it raises test security-related concerns. Meanwhile, artificial intelligence (AI) has witnessed tremendous advances in the last five years. Many AI tools (such as the very recent ChatGPT) can generate high-quality responses to test items. These new developments require test security research beyond the statistical analysis of scores and response time. Data analytics and AI methods based on clickstream process data can get us deeper insight into the test-taking process and hold great promise for securing remotely administered high-stakes tests. This chapter uses real-world examples to show that this is indeed the case.
Abstract（参考訳）: 新型コロナウイルス(COVID-19)のパンデミックにより、遠隔での高リスク評価の実施と受け入れが加速した。フレキシブルなテスト管理は、多くの価値をもたらしますが、テストのセキュリティ関連の懸念を引き起こします。一方、人工知能(AI)は過去5年間で飛躍的な進歩を見せている。多くのAIツール(最近のChatGPTなど)は、テスト項目に対する高品質な応答を生成することができる。これらの新たな開発には、スコアと応答時間の統計分析以上のテストセキュリティ研究が必要である。クリックストリームプロセスデータに基づくデータ分析とAIメソッドは、テストテイクプロセスに関するより深い洞察を得ることができ、リモートで管理されたハイテイクテストの安全性を保証します。この章は現実世界の例を使って、これが事実であることを示す。

関連論文リスト

AI-Driven Tools in Modern Software Quality Assurance: An Assessment of Benefits, Challenges, and Future Directions [0.0]
この研究は、現代のAI指向ツールを品質保証プロセスに統合するメリット、課題、および展望を評価することを目的としている。この研究は、AIがQAに変革をもたらす可能性を実証しているが、これらの技術を実装するための戦略的アプローチの重要性を強調している。
論文参考訳（メタデータ） (2025-06-19T20:22:47Z)
RAID: A Dataset for Testing the Adversarial Robustness of AI-Generated Image Detectors [57.81012948133832]
本稿では,72kの多種多様かつ高い変換可能な対向例からなるRAID(Robust Evaluation of AI- generated Image Detectors)を提案する。提案手法は,未知の検出器に高い成功率で転送する逆画像を生成する。以上の結果から,現在最先端のAI生成画像検出器は,敵の例によって容易に認識できることが示唆された。
論文参考訳（メタデータ） (2025-06-04T14:16:00Z)
TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文参考訳（メタデータ） (2024-11-09T11:15:17Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
The Future of Software Testing: AI-Powered Test Case Generation and Validation [0.0]
本稿では、テストケースの生成と検証を改善する上で、AIが持つ変革の可能性について考察する。テストプロセスの効率性、正確性、スケーラビリティを高める能力に重点を置いている。また、高品質なトレーニングデータの必要性など、テストにAIを適用する際の重要な課題にも対処している。
論文参考訳（メタデータ） (2024-09-09T17:12:40Z)
AI-powered test automation tools: A systematic review and empirical evaluation [1.3490988186255937]
既存のAIベースのテスト自動化ツールが提供する機能について検討する。私たちは、AI機能がテストの有効性と効率にどのように役立つかを実証的に評価します。 AIベースのテストツールにおけるAI機能の制限についても検討する。
論文参考訳（メタデータ） (2024-08-31T10:10:45Z)
Harnessing AI for efficient analysis of complex policy documents: a case study of Executive Order 14110 [44.99833362998488]
法律、規制、執行命令などの政策文書は、社会の形成に不可欠である。本研究の目的は、政策分析の合理化におけるAIの可能性を評価し、現在のAIアプローチの強みと限界を特定することである。
論文参考訳（メタデータ） (2024-06-10T11:19:28Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。 TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。 AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文参考訳（メタデータ） (2023-11-14T10:16:05Z)
Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文参考訳（メタデータ） (2023-07-24T19:59:22Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文参考訳（メタデータ） (2022-07-27T09:26:15Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)
Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-02-05T10:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。