Fugu-MT 論文翻訳(概要): ActuBench: A Multi-Agent LLM Pipeline for Generation and Evaluation of Actuarial Reasoning Tasks

論文の概要: ActuBench: A Multi-Agent LLM Pipeline for Generation and Evaluation of Actuarial Reasoning Tasks

arxiv url: http://arxiv.org/abs/2604.20273v1
Date: Wed, 22 Apr 2026 07:20:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.012455
Title: ActuBench: A Multi-Agent LLM Pipeline for Generation and Evaluation of Actuarial Reasoning Tasks
Title（参考訳）: ActuBench: アクチュアリ推論タスクの生成と評価のためのマルチエージェントLLMパイプライン
Authors: Jan-Philipp Schmidt,
Abstract要約: ActuBenchは、アクチュアリアセスメントアイテムの自動生成と評価のためのパイプラインである。 1つのエージェントがアイテムをドラフトし、1つはイントラクタを構築し、3つ目は独立して両方のステージを検証し、バウンドワンショットの修復ループを駆動する。アイテム、モデルごとのレスポンス、完全なリーダーボードは、ブラウズ可能なWebインターフェースとして公開される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present ActuBench, a multi-agent LLM pipeline for the automated generation and evaluation of advanced actuarial assessment items aligned with the International Actuarial Association (IAA) Education Syllabus. The pipeline separates four LLM roles by adapter: one agent drafts items, one constructs distractors, a third independently verifies both stages and drives bounded one-shot repair loops, and a cost-optimized auxiliary agent handles Wikipedia-note summarization and topic labelling. The items, per-model responses and complete leaderboard are published as a browsable web interface at https://actubench.de/en/, allowing readers and practitioners to inspect individual items without a repository checkout. We evaluate 50 language models from eight providers on two complementary benchmarks -- 100 empirically hardest multiple-choice items and 100 open-ended items scored by an LLM judge -- and report three headline findings. First, multi-agent verification is load-bearing: the independent verifier flags a majority of drafted items on first pass, most of which the one-shot repair loop resolves. Second, locally-hosted open-weights inference sits on the cost-performance Pareto front: a Gemma~4 model running on consumer hardware and a Cerebras-hosted 120B open-weights model dominate the near-zero-cost region, with the latter within one item of the top of the leaderboard. Third, MCQ and LLM-as-Judge rankings differ meaningfully: the MCQ scaffold inflates the performance ceiling, and Judge-mode evaluation is needed to discriminate at the frontier.
Abstract（参考訳）: ActuBenchは,国際アクチュアリアル・アセスメント・シラバス(IAA)に適合する高度なアクチュアリアルアセスメント項目の自動生成と評価のための多エージェントLPMパイプラインである。パイプラインは4つのLLMロールをアダプタによって分離する: 1つのエージェントがアイテムをドラフトし、1つがインタプリタを作成し、3つが独立して両方のステージを検証し、バウンドワンショットの修復ループを駆動し、コスト最適化された補助エージェントがウィキペディアノートの要約とトピックラベリングを処理する。アイテム、モデルごとのレスポンス、完全なリーダーボードは、https://actubench.de/en/でブラウズ可能なWebインターフェースとして公開されており、レポジトリチェックアウトなしで、読者や実践者が個々のアイテムを検査することができる。我々は、8つのプロバイダから50の言語モデルを評価する。2つの相補的なベンチマーク - 経験的に最も難しい100のマルチチョイス項目と、LLMの審査員がスコアした100のオープンエンド項目 -- 。独立検証器は、最初のパスでドラフトされた項目の大部分をフラグ付けし、そのほとんどはワンショットの修理ループで解決する。第二に、ローカルにホストされたオープンウェイト推論は、コストパフォーマンスのParetoフロントに置かれている: 消費者向けハードウェア上で動作するGemma~4モデルと、Cerebrasがホストする120Bオープンウェイトモデルは、ほぼゼロコストの領域を支配し、後者はリーダーボードのトップの1項目以内である。第3に, MCQ と LLM-as-Judge のランキングは, MCQ の足場が天井を膨らませること, フロンティアでの判別には判定モードの評価が必要である。

関連論文リスト

BenchBench: Benchmarking Automated Benchmark Generation [10.44497524694021]
BenchBenchは、自動ベンチマーク生成をベンチマークするためのパイプラインとデータセットである。我々は16.7Kアイテムを生成し、15Kコアアイテムをポストフィルタに保持し、152Kグレードのモデル-イテム応答を生成する。
論文参考訳（メタデータ） (2026-03-21T13:05:32Z)
Agentic AI for Human Resources: LLM-Driven Candidate Assessment [4.271562161453985]
本稿では,Large Language Models (LLMs) を用いて,採用における候補評価を自動化するモジュール型・解釈可能なフレームワークを提案する。このシステムは、ジョブ記述、CV、面接書、人事フィードバックなど様々なソースを統合し、専門家の判断を反映した構造化された評価レポートを生成する。このフレームワークは、詳細なアセスメントレポート、候補比較、および、透明で監査可能で、実際の雇用に適したランク付けされたレコメンデーションを出力する。
論文参考訳（メタデータ） (2026-03-17T21:32:08Z)
The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality [70.45240108873001]
FACTS Leaderboardは、実際に正確なテキストを生成する言語モデルの能力を総合的に評価するオンラインのリーダーボードスイートである。このスイートは、4つの異なるサブリーダーボード上でのモデルのパフォーマンスを集約することで、事実性の総合的な尺度を提供する。
論文参考訳（メタデータ） (2025-12-11T16:35:14Z)
Practical RAG Evaluation: A Rarity-Aware Set-Based Metric and Cost-Latency-Quality Trade-offs [0.0]
本稿では,生産型RAGにおける推算ゲームについて述べる。黄金のセットを構築し、監査するための標準化された再現可能な方法はありません。 Rath-gs (MIT) はプラケット=ルーシがリストワイドに改良したリーン・ゴールデンセットのパイプラインである。
論文参考訳（メタデータ） (2025-11-12T18:49:21Z)
LLM Driven Processes to Foster Explainable AI [0.0]
オーディエンス可能なアーティファクトへの推論を外部化する,モジュール型で説明可能なLCMエージェントパイプラインを提案する。このシステムは3つのフレームワークをインスタンス化する: VesterのSensitivity Model(要素セット、署名されたインパクトマトリックス、システム的役割、フィードバックループ)、正規形式ゲーム(戦略、ペイオフマトリックス、平衡)、シーケンシャルゲーム(ロールコンディショニングされたエージェント、ツリー構築、後方誘導)。
論文参考訳（メタデータ） (2025-11-10T13:20:00Z)
Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文参考訳（メタデータ） (2025-10-08T18:24:59Z)
AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition [27.312190686305588]
大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
論文参考訳（メタデータ） (2025-09-26T05:45:14Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。 Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。 ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文参考訳（メタデータ） (2025-06-18T14:37:59Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。