Fugu-MT 論文翻訳(概要): CoMAI: A Collaborative Multi-Agent Framework for Robust and Equitable Interview Evaluation

論文の概要: CoMAI: A Collaborative Multi-Agent Framework for Robust and Equitable Interview Evaluation

arxiv url: http://arxiv.org/abs/2603.16215v1
Date: Tue, 17 Mar 2026 07:44:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.157592
Title: CoMAI: A Collaborative Multi-Agent Framework for Robust and Equitable Interview Evaluation
Title（参考訳）: CoMAI:ロバストで公平なインタビュー評価のための協調的マルチエージェントフレームワーク
Authors: Gengxin Sun, Ruihao Yu, Liangyi Yin, Yunqi Yang, Bin Zhang, Zhiwei Xu,
Abstract要約: CoMAIは多様なアセスメントシナリオ用に設計された汎用マルチエージェントインタビューフレームワークである。システムは、質問生成、セキュリティ、スコアリング、要約を専門とする4つのエージェントから構成される。実験の結果、CoMAIは90.47%の精度、83.33%のリコール、84.41%の候補満足度を達成した。
参考スコア（独自算出の注目度）: 4.938120508930052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring robust and fair interview assessment remains a key challenge in AI-driven evaluation. This paper presents CoMAI, a general-purpose multi-agent interview framework designed for diverse assessment scenarios. In contrast to monolithic single-agent systems based on large language models (LLMs), CoMAI employs a modular task-decomposition architecture coordinated through a centralized finite-state machine. The system comprises four agents specialized in question generation, security, scoring, and summarization. These agents work collaboratively to provide multi-layered security defenses against prompt injection, support multidimensional evaluation with adaptive difficulty adjustment, and enable rubric-based structured scoring that reduces subjective bias. Experimental results demonstrate that CoMAI achieved 90.47% accuracy, 83.33% recall, and 84.41% candidate satisfaction. These results highlight CoMAI as a robust, fair, and interpretable paradigm for AI-driven interview assessment.
Abstract（参考訳）: 堅牢で公正なインタビューアセスメントを保証することは、AIによる評価において依然として重要な課題である。本稿では,多様な評価シナリオを対象とした汎用マルチエージェント・インタビュー・フレームワークであるCoMAIについて述べる。大規模言語モデル(LLM)に基づくモノリシックな単一エージェントシステムとは対照的に、CoMAIは中央集権有限状態マシンによって協調されるモジュラータスク分解アーキテクチャを採用している。システムは、質問生成、セキュリティ、スコアリング、要約を専門とする4つのエージェントから構成される。これらのエージェントは, 即発注入に対する多層防犯, 適応的難易度調整による多次元評価支援, 主観バイアスを低減したルーブリックに基づく構造化スコアリングを実現する。実験の結果、CoMAIは90.47%の精度、83.33%のリコール、84.41%の候補満足度を達成した。これらの結果は、AI駆動インタビューアセスメントのための堅牢で公平で解釈可能なパラダイムとして、CoMAIを強調している。

関連論文リスト

AirCopBench: A Benchmark for Multi-drone Collaborative Embodied Perception and Reasoning [33.49390843688711]
MLLM(Multimodal Large Language Models)は、単一エージェントビジョンタスクにおいて有望であることを示す。 AirCopBenchは、MLLMを体感的に評価するために設計された最初の総合的なベンチマークである。
論文参考訳（メタデータ） (2025-11-14T07:23:05Z)
A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports [24.09178055088843]
Deep Research Agents (DRA)は、タスク分解、クロスソース検索、多段階推論、構造化出力の能力を示す。本稿では,DRAとレポートスタイルの応答に適した厳密なベンチマークと多次元評価フレームワークを提案する。このフレームワークは、DRAが生成した長期レポートの総合的な評価を可能にし、セマンティックな品質、トピックの焦点、検索の信頼性のための総合的なスコアリング指標を統合する。
論文参考訳（メタデータ） (2025-10-02T16:40:02Z)
A Multi-To-One Interview Paradigm for Efficient MLLM Evaluation [63.76972456980632]
効率的なMLLM評価のためのマルチツーワンインタビューパラダイムを提案する。本フレームワークは, (i) 事前面接と形式面接の2段階面接戦略, (ii) 公平性を確保するための重みの動的調整, (iii) 質問難度選択のための適応的メカニズムから構成される。
論文参考訳（メタデータ） (2025-09-18T12:07:40Z)
An Automated Multi-modal Evaluation Framework for Mobile Intelligent Assistants Based on Large Language Models and Multi-Agent Collaboration [5.630646705589818]
本稿では,大規模言語モデルとマルチエージェント協調に基づく自動マルチモーダル評価フレームワークを提案する。このフレームワークは、インタラクション評価エージェント、セマンティック検証エージェント、経験決定エージェントからなる3層エージェントアーキテクチャを採用している。
論文参考訳（メタデータ） (2025-08-13T05:40:34Z)
Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation [4.08768677009363]
本稿では,タスク領域に依存しないエージェントタスク完了を評価するための,汎用的でモジュール化されたフレームワークを提案する。 GAIAとBigCodeBenchの2つのベンチマークでMagentic-One Actor Agentを評価することで、我々のフレームワークを検証する。我々の審査員は、人間の評価と密接に一致したタスクの成功を予測し、それぞれ4.76%と10.52%のアライメント精度を達成した。
論文参考訳（メタデータ） (2025-08-07T15:39:48Z)
Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文参考訳（メタデータ） (2025-07-03T17:35:31Z)
MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。 4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。 MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文参考訳（メタデータ） (2025-05-21T17:59:12Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。 AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。