論文の概要: TaskEval: Synthesised Evaluation for Foundation-Model Tasks
- arxiv url: http://arxiv.org/abs/2512.04442v1
- Date: Thu, 04 Dec 2025 04:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.983479
- Title: TaskEval: Synthesised Evaluation for Foundation-Model Tasks
- Title(参考訳): TaskEval: 基礎モデルタスクの合成評価
- Authors: Dilani Widanapathiranage, Scott Barnett, Stefanus Kurniawan, Wannita Takerngsaksiri,
- Abstract要約: 本稿では、FMタスク固有の評価プログラムを合成し、フィードバックをキャプチャするための自動化とカスタムUIを提供する手法を提案する。
提案手法の中核的な特徴は,(1)FMタスクの特性を捉えたタスク非依存メタモデル,(2)人間のフィードバックを効率的に活用するためのインタラクションプロトコル,(3)適切なevalのセットを選択したり生成したりするevalシンセサイザーである。
- 参考スコア(独自算出の注目度): 1.0219621548854343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations are a key concern when creating applications that rely on Foundation models (FMs). Understanding where and how these subtle failures occur in an application relies on evaluation methods known as \textit{evals}. Prior work focuses on defining new eval methods or benchmark datasets for specific tasks. However, neither helps a software team with a task-specific FM application when there is no metric or dataset. The demand for both automated approaches and deep integration of human insight makes this a challenging problem. We address this gap by proposing an approach to synthesise a FM task-specific evaluator program that provides automation and a custom UI for capturing feedback. The core novelty of our approach lies in: (1) a task-agnostic meta-model that captures properties of any FM task, (2) an interaction protocol for efficient use of human feedback, and (3) an eval synthesiser that selects or generates an appropriate set of evals. We implement our approach in \toolname and demonstrate the concept on two diverse FM tasks: chart data extraction and document question answering. A preliminary evaluation on the quality of our selected evals shows 93\% and 90\% accuracy respectively. Our research tackles a growing problem facing engineering teams, how to evaluate and review outputs from FM tasks.
- Abstract(参考訳): ファンデーションモデル(FM)に依存するアプリケーションを作成する場合、幻覚は重要な関心事である。
アプリケーション内でこれらの微妙な障害の発生場所と方法を理解するには、‘textit{evals} と呼ばれる評価方法に依存する。
以前の作業では、特定のタスクのための新しいevalメソッドやベンチマークデータセットの定義に重点を置いていた。
しかし、メトリクスやデータセットがない場合、ソフトウェアチームがタスク固有のFMアプリケーションを使うのにも役立ちません。
自動化アプローチと人間の洞察の深い統合の両方の需要は、この問題を困難な問題にしている。
我々は、FMタスク固有の評価プログラムを合成し、フィードバックをキャプチャするための自動化とカスタムUIを提供するアプローチを提案することで、このギャップに対処する。
提案手法の中核的な特徴は,(1)FMタスクの特性を捉えるタスク非依存メタモデル,(2)人間のフィードバックを効率的に活用するためのインタラクションプロトコル,(3)適切なevalを選択あるいは生成するevalシンセサイザーである。
提案手法を \toolname で実装し,データ抽出と文書質問応答という2つの異なるFMタスクの概念を実証する。
選択したevalsの品質に関する予備評価では, それぞれ93\%, 90\%の精度を示した。
我々の研究は、エンジニアリングチームが直面している問題、FMタスクからのアウトプットの評価とレビューの方法に取り組みます。
関連論文リスト
- FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - TOP-Training: Target-Oriented Pretraining for Medical Extractive Question Answering [53.92585020805746]
医学領域における抽出的質問応答に関する研究(医学EQA)
この問題には、(i)ドメイン特異性と(ii)抽出に基づく回答スタイルの2つの主な課題がある。
対象指向の事前学習パラダイムであるTOP-Trainingを提案する。
論文 参考訳(メタデータ) (2023-10-25T20:48:16Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。