論文の概要: KGCE: Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2601.01366v1
- Date: Sun, 04 Jan 2026 04:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.258826
- Title: KGCE: Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models
- Title(参考訳): KGCE:マルチモーダル言語モデルを用いたクロスプラットフォーム教育エージェントベンチマークのための知識強化デュアルグラフ評価器
- Authors: Zixian Liu, Sihao Liu, Yuqi Zhao,
- Abstract要約: KGCEは知識ベース拡張とデュアルグラフ評価フレームワークを統合する新しいベンチマークプラットフォームである。
最初に、104の教育関連タスクからなるデータセットを構築し、Windows、Android、クロスプラットフォームの協調タスクをカバーした。
そこで我々は,学校固有のソフトウェアに固有の知識ベースを組み込んだエージェントシステムを開発した。
- 参考スコア(独自算出の注目度): 2.4487691107306655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid adoption of multimodal large language models (MLMs) in autonomous agents, cross-platform task execution capabilities in educational settings have garnered significant attention. However, existing benchmark frameworks still exhibit notable deficiencies in supporting cross-platform tasks in educational contexts, especially when dealing with school-specific software (such as XiaoYa Intelligent Assistant, HuaShi XiaZi, etc.), where the efficiency of agents often significantly decreases due to a lack of understanding of the structural specifics of these private-domain software. Additionally, current evaluation methods heavily rely on coarse-grained metrics like goal orientation or trajectory matching, making it challenging to capture the detailed execution and efficiency of agents in complex tasks. To address these issues, we propose KGCE (Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models), a novel benchmarking platform that integrates knowledge base enhancement and a dual-graph evaluation framework. We first constructed a dataset comprising 104 education-related tasks, covering Windows, Android, and cross-platform collaborative tasks. KGCE introduces a dual-graph evaluation framework that decomposes tasks into multiple sub-goals and verifies their completion status, providing fine-grained evaluation metrics. To overcome the execution bottlenecks of existing agents in private-domain tasks, we developed an enhanced agent system incorporating a knowledge base specific to school-specific software. The code can be found at https://github.com/Kinginlife/KGCE.
- Abstract(参考訳): 自律エージェントにおけるマルチモーダルな大規模言語モデル(MLM)の急速な採用により、教育環境におけるクロスプラットフォームタスク実行能力に大きな注目を集めている。
しかしながら、既存のベンチマークフレームワークは、特に学校固有のソフトウェア(XiaoYa Intelligent Assistant、Huashi XiaZiなど)を扱う場合、これらのプライベートドメインソフトウェアの構造的特質の理解が欠如しているため、エージェントの効率が著しく低下する場合に、教育の文脈においてクロスプラットフォームタスクをサポートする際、顕著な欠陥がある。
さらに、現在の評価方法は、ゴールオリエンテーションや軌道マッチングのような粗い粒度のメトリクスに大きく依存しているため、複雑なタスクにおけるエージェントの詳細な実行と効率の把握が困難である。
これらの課題に対処するため、知識ベース強化とデュアルグラフ評価フレームワークを統合した新しいベンチマークプラットフォームであるKGCE(Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models)を提案する。
最初に、104の教育関連タスクからなるデータセットを構築し、Windows、Android、クロスプラットフォームの協調タスクをカバーした。
KGCEは、タスクを複数のサブゴールに分解し、その完了状態を検証するデュアルグラフ評価フレームワークを導入し、きめ細かい評価指標を提供する。
そこで我々は,学校固有のソフトウェアに固有の知識ベースを組み込んだエージェントシステムを開発した。
コードはhttps://github.com/Kinginlife/KGCEで見ることができる。
関連論文リスト
- SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - MisoDICE: Multi-Agent Imitation from Unlabeled Mixed-Quality Demonstrations [5.4482836906033585]
実演が混在する多エージェント環境下でのオフライン模倣学習(IL)について検討した。
提案手法は,軌道ラベリングとマルチエージェント模倣学習の2段階からなる。
我々はこれらのラベルを利用してロバストなポリシーを学習する新しいマルチエージェントILアルゴリズムであるMisoDICEを紹介する。
論文 参考訳(メタデータ) (2025-05-24T08:43:42Z) - TimeSeriesGym: A Scalable Benchmark for (Time Series) Machine Learning Engineering Agents [17.296425855109426]
人工知能(AI)エージェントを評価するためのスケーラブルなベンチマークフレームワークであるTimeSeriesGymを紹介する。
TimeSeriesGymには、複数のドメインやタスクにまたがるさまざまなソースからの課題が含まれている。
提出ファイルやコード,モデルなど,複数の研究成果物に対する評価機構を実装した。
論文 参考訳(メタデータ) (2025-05-19T16:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。