論文の概要: TaskEval: Synthesised Evaluation for Foundation-Model Tasks
- arxiv url: http://arxiv.org/abs/2512.04442v1
- Date: Thu, 04 Dec 2025 04:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.983479
- Title: TaskEval: Synthesised Evaluation for Foundation-Model Tasks
- Title(参考訳): TaskEval: 基礎モデルタスクの合成評価
- Authors: Dilani Widanapathiranage, Scott Barnett, Stefanus Kurniawan, Wannita Takerngsaksiri,
- Abstract要約: 本稿では、FMタスク固有の評価プログラムを合成し、フィードバックをキャプチャするための自動化とカスタムUIを提供する手法を提案する。
提案手法の中核的な特徴は,(1)FMタスクの特性を捉えたタスク非依存メタモデル,(2)人間のフィードバックを効率的に活用するためのインタラクションプロトコル,(3)適切なevalのセットを選択したり生成したりするevalシンセサイザーである。
- 参考スコア(独自算出の注目度): 1.0219621548854343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations are a key concern when creating applications that rely on Foundation models (FMs). Understanding where and how these subtle failures occur in an application relies on evaluation methods known as \textit{evals}. Prior work focuses on defining new eval methods or benchmark datasets for specific tasks. However, neither helps a software team with a task-specific FM application when there is no metric or dataset. The demand for both automated approaches and deep integration of human insight makes this a challenging problem. We address this gap by proposing an approach to synthesise a FM task-specific evaluator program that provides automation and a custom UI for capturing feedback. The core novelty of our approach lies in: (1) a task-agnostic meta-model that captures properties of any FM task, (2) an interaction protocol for efficient use of human feedback, and (3) an eval synthesiser that selects or generates an appropriate set of evals. We implement our approach in \toolname and demonstrate the concept on two diverse FM tasks: chart data extraction and document question answering. A preliminary evaluation on the quality of our selected evals shows 93\% and 90\% accuracy respectively. Our research tackles a growing problem facing engineering teams, how to evaluate and review outputs from FM tasks.
- Abstract(参考訳): ファンデーションモデル(FM)に依存するアプリケーションを作成する場合、幻覚は重要な関心事である。
アプリケーション内でこれらの微妙な障害の発生場所と方法を理解するには、‘textit{evals} と呼ばれる評価方法に依存する。
以前の作業では、特定のタスクのための新しいevalメソッドやベンチマークデータセットの定義に重点を置いていた。
しかし、メトリクスやデータセットがない場合、ソフトウェアチームがタスク固有のFMアプリケーションを使うのにも役立ちません。
自動化アプローチと人間の洞察の深い統合の両方の需要は、この問題を困難な問題にしている。
我々は、FMタスク固有の評価プログラムを合成し、フィードバックをキャプチャするための自動化とカスタムUIを提供するアプローチを提案することで、このギャップに対処する。
提案手法の中核的な特徴は,(1)FMタスクの特性を捉えるタスク非依存メタモデル,(2)人間のフィードバックを効率的に活用するためのインタラクションプロトコル,(3)適切なevalを選択あるいは生成するevalシンセサイザーである。
提案手法を \toolname で実装し,データ抽出と文書質問応答という2つの異なるFMタスクの概念を実証する。
選択したevalsの品質に関する予備評価では, それぞれ93\%, 90\%の精度を示した。
我々の研究は、エンジニアリングチームが直面している問題、FMタスクからのアウトプットの評価とレビューの方法に取り組みます。
関連論文リスト
- FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Benchmarking Foundation Models on Exceptional Cases: Dataset Creation and Validation [11.562935582384098]
本稿では, グラフィックノベル, 書道, ニュース記事, 歌詞など, 複数のモダリティにまたがるFM評価のための新しいデータセットを開発する。
これには、例えば分類、文字認識、トークン予測、テキスト生成といったタスクが含まれる。
また,性能向上のため,Chain-of-Few(CoT)やCoT+Thought-Shotといった迅速な技術も提案する。
論文 参考訳(メタデータ) (2024-10-23T16:24:23Z) - WONDERBREAD: A Benchmark for Evaluating Multimodal Foundation Models on Business Process Management Tasks [11.701910903349201]
既存のMLベンチマークには、ビジネスプロセス管理(BPM)タスクのモデルを評価するのに必要なアノテーションの深さと多様性が欠けている。
我々のベンチマークでは、最先端のFMはドキュメンテーションを自動的に生成できるが、ワークフロー補完のよりきめ細かい検証に向けてその知識を再適用するのに苦労している。
論文 参考訳(メタデータ) (2024-06-19T06:50:15Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - TOP-Training: Target-Oriented Pretraining for Medical Extractive Question Answering [53.92585020805746]
医学領域における抽出的質問応答に関する研究(医学EQA)
この問題には、(i)ドメイン特異性と(ii)抽出に基づく回答スタイルの2つの主な課題がある。
対象指向の事前学習パラダイムであるTOP-Trainingを提案する。
論文 参考訳(メタデータ) (2023-10-25T20:48:16Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - Zero-shot Item-based Recommendation via Multi-task Product Knowledge
Graph Pre-Training [106.85813323510783]
本稿ではゼロショットアイテムベース勧告(ZSIR)タスクのための新しいパラダイムを提案する。
製品知識グラフ(PKG)のモデルを事前トレーニングして、PLMからアイテム機能を洗練します。
我々は,PKGにおける多型関係,アイテムジェネリック情報と関係のセマンティックな相違,PKGから下流ZSIRタスクへのドメイン差といった,PKG事前学習の課題を3つ挙げる。
論文 参考訳(メタデータ) (2023-05-12T17:38:24Z) - FETA: Towards Specializing Foundation Models for Expert Task
Applications [49.57393504125937]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。
本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文 参考訳(メタデータ) (2022-09-08T08:47:57Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。