論文の概要: Pangu-ACE: Adaptive Cascaded Experts for Educational Response Generation on EduBench
- arxiv url: http://arxiv.org/abs/2604.14828v1
- Date: Thu, 16 Apr 2026 10:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.832829
- Title: Pangu-ACE: Adaptive Cascaded Experts for Educational Response Generation on EduBench
- Title(参考訳): Pangu-ACE:EduBenchにおける教育応答生成のための適応型カスケードエキスパート
- Authors: Dinghao Li, Wenlong Zhou, Zhimin Chen, Yuehan Peng, Hong Ni, Chengfu Zou, Guoyu Shi, Yaochen Li,
- Abstract要約: 本稿では、実際に実装され、リポジトリにアーカイブされたシステムに関する、私たちの以前のドラフトを書き換える。
最終的なシステムであるPangu-ACEは、ドラフト回答とルーティング信号を生成するために1Bのチュータールータを使用して、ドラフトを受理するか、サンプルを7Bの専門家プロンプトにエスカレーションする。
- 参考スコア(独自算出の注目度): 4.622810499197031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Educational assistants should spend more computation only when the task needs it. This paper rewrites our earlier draft around the system that was actually implemented and archived in the repository: a sample-level 1B to 7B cascade for the shared-8 EduBench benchmark. The final system, Pangu-ACE, uses a 1B tutor-router to produce a draft answer plus routing signals, then either accepts the draft or escalates the sample to a 7B specialist prompt. We also correct a major offline evaluation bug: earlier summaries over-credited some open-form outputs that only satisfied superficial format checks. After CPU-side rescoring from saved prediction JSONL, the full Chinese test archive (7013 samples) shows that cascade_final improves deterministic quality from 0.457 to 0.538 and format validity from 0.707 to 0.866 over the legacy rule_v2 system while accepting 19.7% of requests directly at 1B. Routing is strongly task dependent: IP is accepted by 1B 78.0% of the time, while QG and EC still escalate almost always. The current archived deployment does not yet show latency gains, so the defensible efficiency story is routing selectivity rather than wall-clock speedup. We also package a reproducible artifact-first paper workflow and clarify the remaining external-baseline gap: GPT-5.4 re-judging is implemented locally, but the configured provider endpoint and key are invalid, so final sampled-baseline alignment with GPT-5.4 remains pending infrastructure repair.
- Abstract(参考訳): 教育アシスタントは、タスクが必要なときにだけ、より多くの計算を使わなければならない。
本稿では,共有8EduBenchベンチマークのサンプルレベル1Bから7Bのカスケードとして,実際に実装され,リポジトリにアーカイブされたシステムに関する以前のドラフトを書き換える。
最終的なシステムであるPangu-ACEは、ドラフト回答とルーティング信号を生成するために1Bのチュータールータを使用して、ドラフトを受理するか、サンプルを7Bの専門家プロンプトにエスカレーションする。
初期の要約では、表面的なフォーマットチェックのみを満足するオープンフォームのアウトプットが過大評価されていた。
保存された予測JSONLからCPU側で書き直された後、完全な中国のテストアーカイブ(7013サンプル)は、Cascade_finalが決定論的品質を0.457から0.538に改善し、レガシルール_v2システムに対して0.707から0.866に妥当性を向上し、1Bで19.7%のリクエストを受け付けていることを示している。
IP は1B 78.0% で受け入れられ、QG と EC はほとんど常にエスカレートしている。
現在のアーカイブされたデプロイメントは、まだレイテンシの増加を示していないため、防御可能な効率のストーリーは、ウォールクロックのスピードアップではなく、ルーティングの選択性である。
GPT-5.4はローカルに実装されているが、構成されたプロバイダエンドポイントとキーは無効であるため、最終的なサンプルベースラインアライメントはGPT-5.4がインフラストラクチャの修理を控えている。
関連論文リスト
- APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On [31.413458927376016]
参照不要な設定を埋めるために、Implicit Error Countingを提案する。
IECは、キャリブレーションされたルーリックに対して何が正しいかをチェックせずに、何が間違っているかを列挙します。
ネーブ明示列挙法は安定な最適化には難しすぎることを示す。
論文 参考訳(メタデータ) (2026-03-05T20:20:04Z) - When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。
医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文 参考訳(メタデータ) (2026-01-26T10:54:06Z) - When Old Meets New: Evaluating the Impact of Regression Tests on SWE Issue Resolution [8.305144449617883]
TestPruneは,イシュートラッカレポートを活用して,バグ再現とパッチ検証の両面において,レグレッションテストを戦略的に再利用する,完全に自動化されたテクニックである。
TestPruneは任意のエージェントバグ修正パイプラインにプラグイン可能で、全体的なパフォーマンスが急速に向上する。
論文 参考訳(メタデータ) (2025-10-21T03:42:28Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Theoretically Achieving Continuous Representation of Oriented Bounding Boxes [64.15627958879053]
本論文は,オブジェクト指向境界ボックス表現における不連続性を完全に解決しようとする試みである。
本研究では,既存の検出器に容易に統合可能なCOBB(Continuous OBB)という新しい表現法を提案する。
OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-29T09:27:40Z) - InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining [47.60376031955207]
Retro 48Bは検索で事前訓練された最大の大規模言語モデルである。
InstructRetroは、幅広いゼロショットタスクでチューニングされたGPTよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-11T17:59:05Z) - Finetuning Transformer Models to Build ASAG System [0.0]
この研究の目的はMLベースの短解階調システムを開発することである。
私はSTSベンチマークデータセットに事前トレーニングされたRoberta Large Modelの微調整を利用するシステムを構築しました。
システムの性能をMohler拡張データセットとSciEntsBankデータセットで評価した。
論文 参考訳(メタデータ) (2021-09-25T07:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。