論文の概要: CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring
- arxiv url: http://arxiv.org/abs/2505.13965v1
- Date: Tue, 20 May 2025 06:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.774632
- Title: CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring
- Title(参考訳): CAFES:マルチグラニュラーマルチモーダルエッセイスコーリングのための協調型マルチエージェントフレームワーク
- Authors: Jiamin Su, Yibo Yan, Zhuoran Gao, Han Zhang, Xiang Liu, Xuming Hu,
- Abstract要約: CAFESはAES用に特別に設計された初の協調型マルチエージェントフレームワークである。
それは3つの特殊エージェントを編成する: 迅速で特性特異的な評価のためのイニシャル・スコーラー、詳細なエビデンスに基づく強さを集約するフィードバックプールマネージャ、このフィードバックに基づいてスコアを反復的に洗練して人間のアライメントを強化するリフレクティブ・スコーラー。
- 参考スコア(独自算出の注目度): 15.197083495600998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Essay Scoring (AES) is crucial for modern education, particularly with the increasing prevalence of multimodal assessments. However, traditional AES methods struggle with evaluation generalizability and multimodal perception, while even recent Multimodal Large Language Model (MLLM)-based approaches can produce hallucinated justifications and scores misaligned with human judgment. To address the limitations, we introduce CAFES, the first collaborative multi-agent framework specifically designed for AES. It orchestrates three specialized agents: an Initial Scorer for rapid, trait-specific evaluations; a Feedback Pool Manager to aggregate detailed, evidence-grounded strengths; and a Reflective Scorer that iteratively refines scores based on this feedback to enhance human alignment. Extensive experiments, using state-of-the-art MLLMs, achieve an average relative improvement of 21% in Quadratic Weighted Kappa (QWK) against ground truth, especially for grammatical and lexical diversity. Our proposed CAFES framework paves the way for an intelligent multimodal AES system. The code will be available upon acceptance.
- Abstract(参考訳): AES(Automated Essay Scoring)は、現代教育、特にマルチモーダルアセスメントの普及に不可欠である。
しかし、従来のAES手法は、評価の一般化可能性やマルチモーダル認識に苦慮する一方で、最近のマルチモーダル言語モデル(MLLM)ベースのアプローチでさえも、人間の判断に反する幻覚的正当化とスコアを生み出すことができる。
この制限に対処するため,AES用に設計された初の協調型マルチエージェントフレームワークであるCAFESを紹介した。
それは3つの特殊エージェントを編成する: 迅速で特性特異的な評価のためのイニシャル・スコーラー、詳細なエビデンスに基づく強さを集約するフィードバックプールマネージャ、このフィードバックに基づいてスコアを反復的に洗練して人間のアライメントを強化するリフレクティブ・スコーラー。
最先端MLLMを用いた大規模実験は、特に文法的および語彙的多様性に対して、準重み付きカッパ(QWK)の平均相対的な改善を21%達成している。
提案するCAFESフレームワークは,インテリジェントマルチモーダルAESシステムを実現する。
コードは受理後利用可能になる。
関連論文リスト
- On Path to Multimodal Generalist: General-Level and General-Bench [153.9720740167528]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。
フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。
既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (2025-05-07T17:59:32Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - EssayJudge: A Multi-Granular Benchmark for Assessing Automated Essay Scoring Capabilities of Multimodal Large Language Models [19.271790170055375]
EssayJudgeは、手動のフィーチャエンジニアリングなしで、正確でコンテキストに富んだ評価を提供し、長年のAES制限に対処する。
18種類のMLLMを用いた実験では,特に談話レベルの特性において,人的評価と比較してAES性能の差が明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T15:31:59Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。