論文の概要: TestAgent: An Adaptive and Intelligent Expert for Human Assessment
- arxiv url: http://arxiv.org/abs/2506.03032v1
- Date: Tue, 03 Jun 2025 16:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.825136
- Title: TestAgent: An Adaptive and Intelligent Expert for Human Assessment
- Title(参考訳): TestAgent: 適応的でインテリジェントな評価専門家
- Authors: Junhao Yu, Yan Zhuang, YuXuan Sun, Weibo Gao, Qi Liu, Mingyue Cheng, Zhenya Huang, Enhong Chen,
- Abstract要約: 対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
- 参考スコア(独自算出の注目度): 62.060118490577366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately assessing internal human states is key to understanding preferences, offering personalized services, and identifying challenges in real-world applications. Originating from psychometrics, adaptive testing has become the mainstream method for human measurement and has now been widely applied in education, healthcare, sports, and sociology. It customizes assessments by selecting the fewest test questions . However, current adaptive testing methods face several challenges. The mechanized nature of most algorithms leads to guessing behavior and difficulties with open-ended questions. Additionally, subjective assessments suffer from noisy response data and coarse-grained test outputs, further limiting their effectiveness. To move closer to an ideal adaptive testing process, we propose TestAgent, a large language model (LLM)-powered agent designed to enhance adaptive testing through interactive engagement. This is the first application of LLMs in adaptive testing. TestAgent supports personalized question selection, captures test-takers' responses and anomalies, and provides precise outcomes through dynamic, conversational interactions. Experiments on psychological, educational, and lifestyle assessments show our approach achieves more accurate results with 20% fewer questions than state-of-the-art baselines, and testers preferred it in speed, smoothness, and other dimensions.
- Abstract(参考訳): 内部の人間の状態を正確に評価することは、好みを理解し、パーソナライズされたサービスを提供し、現実世界のアプリケーションにおける課題を特定するための鍵となる。
心理測定から派生した適応テストは、人間の測定の主要な方法となり、教育、医療、スポーツ、社会学に広く応用されている。
最小限のテスト質問を選択してアセスメントをカスタマイズする。
しかし、現在の適応テスト手法にはいくつかの課題がある。
ほとんどのアルゴリズムの機械的性質は、オープンエンドの質問で振る舞いや困難を推測する。
さらに、主観評価は、ノイズの多い応答データと粗い粒度のテスト出力に悩まされ、その効果をさらに制限します。
理想的な適応テストプロセスに近づくために,対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
これは適応テストにおけるLLMの最初の応用である。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
心理的、教育的、ライフスタイル評価の実験では、我々のアプローチは最先端のベースラインよりも20%少ない質問でより正確な結果を得ることができ、テスターはそれをスピード、滑らかさ、その他の次元で好んでいる。
関連論文リスト
- Unveiling Assumptions: Exploring the Decisions of AI Chatbots and Human Testers [2.5327705116230477]
意思決定は、コード、要求仕様、その他のソフトウェアアーティファクトなど、さまざまな情報に依存します。
不明瞭な情報によって残されたギャップを埋めるために、私たちはしばしば、前提や直観、あるいは以前の経験に頼って意思決定をします。
論文 参考訳(メタデータ) (2024-06-17T08:55:56Z) - Survey of Computerized Adaptive Testing: A Machine Learning Perspective [66.26687542572974]
コンピュータ適応テスト (Computerized Adaptive Testing, CAT) は、試験の熟練度を評価するための効率的で調整された方法である。
本稿では,この適応テスト手法に対する新たな視点を提示し,機械学習に着目したCATに関する調査を行うことを目的とする。
論文 参考訳(メタデータ) (2024-03-31T15:09:47Z) - ALBA: Adaptive Language-based Assessments for Mental Health [7.141164121152202]
本研究は,適応型言語ベースアセスメントALBAの課題を紹介する。
質問を適応的に注文すると同時に、以前の質問に対する限定的な言語応答を使用して個人の潜在心理学的特徴をスコア付けする。
ALIRTは最も正確でスケーラブルで、より少ない質問で最高の精度を実現しています。
論文 参考訳(メタデータ) (2023-11-11T03:37:17Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Hybrid Intelligent Testing in Simulation-Based Verification [0.0]
数百万のテストは、カバレッジの目標を達成するために必要かもしれない。
カバレッジ指向のテスト選択は、カバレッジフィードバックからバイアステストまで、最も効果的なテストへと学習する。
ノベルティ駆動検証は、以前の刺激とは異なる刺激を識別し、シミュレートすることを学ぶ。
論文 参考訳(メタデータ) (2022-05-19T13:22:08Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。