Fugu-MT 論文翻訳(概要): TestAgent: An Adaptive and Intelligent Expert for Human Assessment

論文の概要: TestAgent: An Adaptive and Intelligent Expert for Human Assessment

arxiv url: http://arxiv.org/abs/2506.03032v1
Date: Tue, 03 Jun 2025 16:07:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.825136
Title: TestAgent: An Adaptive and Intelligent Expert for Human Assessment
Title（参考訳）: TestAgent: 適応的でインテリジェントな評価専門家
Authors: Junhao Yu, Yan Zhuang, YuXuan Sun, Weibo Gao, Qi Liu, Mingyue Cheng, Zhenya Huang, Enhong Chen,
Abstract要約: 対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
参考スコア（独自算出の注目度）: 62.060118490577366
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurately assessing internal human states is key to understanding preferences, offering personalized services, and identifying challenges in real-world applications. Originating from psychometrics, adaptive testing has become the mainstream method for human measurement and has now been widely applied in education, healthcare, sports, and sociology. It customizes assessments by selecting the fewest test questions . However, current adaptive testing methods face several challenges. The mechanized nature of most algorithms leads to guessing behavior and difficulties with open-ended questions. Additionally, subjective assessments suffer from noisy response data and coarse-grained test outputs, further limiting their effectiveness. To move closer to an ideal adaptive testing process, we propose TestAgent, a large language model (LLM)-powered agent designed to enhance adaptive testing through interactive engagement. This is the first application of LLMs in adaptive testing. TestAgent supports personalized question selection, captures test-takers' responses and anomalies, and provides precise outcomes through dynamic, conversational interactions. Experiments on psychological, educational, and lifestyle assessments show our approach achieves more accurate results with 20% fewer questions than state-of-the-art baselines, and testers preferred it in speed, smoothness, and other dimensions.
Abstract（参考訳）: 内部の人間の状態を正確に評価することは、好みを理解し、パーソナライズされたサービスを提供し、現実世界のアプリケーションにおける課題を特定するための鍵となる。心理測定から派生した適応テストは、人間の測定の主要な方法となり、教育、医療、スポーツ、社会学に広く応用されている。最小限のテスト質問を選択してアセスメントをカスタマイズする。しかし、現在の適応テスト手法にはいくつかの課題がある。ほとんどのアルゴリズムの機械的性質は、オープンエンドの質問で振る舞いや困難を推測する。さらに、主観評価は、ノイズの多い応答データと粗い粒度のテスト出力に悩まされ、その効果をさらに制限します。理想的な適応テストプロセスに近づくために,対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。これは適応テストにおけるLLMの最初の応用である。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。心理的、教育的、ライフスタイル評価の実験では、我々のアプローチは最先端のベースラインよりも20%少ない質問でより正確な結果を得ることができ、テスターはそれをスピード、滑らかさ、その他の次元で好んでいる。

関連論文リスト

A Forced-Choice Neural Cognitive Diagnostic Model of Personality Testing [12.122796840818577]
本研究は,深層学習に基づく強制的神経認知診断モデル(FCNCD)を提案する。強制選択テストにおける項目の1次元性を考慮するために、解釈可能な参加者パラメータと項目パラメータを作成する。 FCNCDの有効性は、実世界およびシミュレーションデータセットの実験によって検証される。
論文参考訳（メタデータ） (2025-07-20T15:39:36Z)
Unveiling Assumptions: Exploring the Decisions of AI Chatbots and Human Testers [2.5327705116230477]
意思決定は、コード、要求仕様、その他のソフトウェアアーティファクトなど、さまざまな情報に依存します。不明瞭な情報によって残されたギャップを埋めるために、私たちはしばしば、前提や直観、あるいは以前の経験に頼って意思決定をします。
論文参考訳（メタデータ） (2024-06-17T08:55:56Z)
Survey of Computerized Adaptive Testing: A Machine Learning Perspective [66.26687542572974]
コンピュータ適応テスト (Computerized Adaptive Testing, CAT) は、試験の熟練度を評価するための効率的で調整された方法である。本稿では,この適応テスト手法に対する新たな視点を提示し,機械学習に着目したCATに関する調査を行うことを目的とする。
論文参考訳（メタデータ） (2024-03-31T15:09:47Z)
InterEvo-TR: Interactive Evolutionary Test Generation With Readability Assessment [1.6874375111244329]
テスタによるインタラクティブな可読性評価をEvoSuiteに組み込むことを提案する。提案手法であるInterEvo-TRは,検索中に異なるタイミングでテスターと対話する。その結果,中間結果の選択・提示戦略は可読性評価に有効であることが示唆された。
論文参考訳（メタデータ） (2024-01-13T13:14:29Z)
ALBA: Adaptive Language-based Assessments for Mental Health [7.141164121152202]
本研究は,適応型言語ベースアセスメントALBAの課題を紹介する。質問を適応的に注文すると同時に、以前の質問に対する限定的な言語応答を使用して個人の潜在心理学的特徴をスコア付けする。 ALIRTは最も正確でスケーラブルで、より少ない質問で最高の精度を実現しています。
論文参考訳（メタデータ） (2023-11-11T03:37:17Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。 TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文参考訳（メタデータ） (2023-03-27T16:32:21Z)
Hybrid Intelligent Testing in Simulation-Based Verification [0.0]
数百万のテストは、カバレッジの目標を達成するために必要かもしれない。カバレッジ指向のテスト選択は、カバレッジフィードバックからバイアステストまで、最も効果的なテストへと学習する。ノベルティ駆動検証は、以前の刺激とは異なる刺激を識別し、シミュレートすることを学ぶ。
論文参考訳（メタデータ） (2022-05-19T13:22:08Z)
A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文参考訳（メタデータ） (2021-05-25T20:35:42Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。