論文の概要: Inferring Capabilities from Task Performance with Bayesian Triangulation
- arxiv url: http://arxiv.org/abs/2309.11975v1
- Date: Thu, 21 Sep 2023 11:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 15:52:49.983232
- Title: Inferring Capabilities from Task Performance with Bayesian Triangulation
- Title(参考訳): ベイズ三角測量によるタスク性能の推定
- Authors: John Burden, Konstantinos Voudouris, Ryan Burnell, Danaja Rutar, Lucy
Cheke, Jos\'e Hern\'andez-Orallo
- Abstract要約: 本稿では,多様な実験データからシステムの認知的プロファイルを推定する手法について述べる。
これらの特徴は、非人口データから機能を推測するために、複雑な方法で三角測量されなければならない。
能力指向評価の可能性を示す。
- 参考スコア(独自算出の注目度): 11.418934051317411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning models become more general, we need to characterise them
in richer, more meaningful ways. We describe a method to infer the cognitive
profile of a system from diverse experimental data. To do so, we introduce
measurement layouts that model how task-instance features interact with system
capabilities to affect performance. These features must be triangulated in
complex ways to be able to infer capabilities from non-populational data -- a
challenge for traditional psychometric and inferential tools. Using the
Bayesian probabilistic programming library PyMC, we infer different cognitive
profiles for agents in two scenarios: 68 actual contestants in the AnimalAI
Olympics and 30 synthetic agents for O-PIAAGETS, an object permanence battery.
We showcase the potential for capability-oriented evaluation.
- Abstract(参考訳): 機械学習モデルがより一般的になるにつれて、より豊かで有意義な方法で特徴付ける必要があります。
多様な実験データからシステムの認知プロファイルを推定する手法について述べる。
そこで我々は,タスクインテンス機能とシステム機能との相互作用をモデル化し,性能に影響を及ぼす計測レイアウトを提案する。
これらの機能は、非人口データから能力を予測するために複雑な方法で三角測量されなければならない。
ベイズ確率論的プログラムライブラリPyMCを用いて,動物AIオリンピックの68人の実際の競技者と,オブジェクト永続電池O-PIAAGETSの30人の合成エージェントの2つのシナリオで,エージェントの認知プロファイルを推定した。
我々は能力指向評価の可能性を示す。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - BEACON: A Bayesian Optimization Strategy for Novelty Search in Expensive Black-Box Systems [1.204357447396532]
ノベルティ・サーチ (NS) は、シミュレーションや実験を通じて様々なシステムの振る舞いを自動的に発見する探索アルゴリズムのクラスである。
ベイズ最適化の原理にインスパイアされたサンプル効率のNS法を提案する。
BEACONは、限られたサンプリング予算の下で、かなり大きな多様な振る舞いの集合を見出すことで、既存のベースラインを総合的に上回ります。
論文 参考訳(メタデータ) (2024-06-05T20:23:52Z) - Is my Data in your AI Model? Membership Inference Test with Application to Face Images [18.402616111394842]
この記事では、AI/MLモデルのトレーニング中に与えられたデータが使用されているかどうかを経験的に評価することを目的とした新しいアプローチである、メンバシップ推論テスト(MINT)を紹介します。
本稿では,学習過程に使用されるデータに監査モデルが露出した場合に現れるアクティベーションパターンを学習するための2つのMINTアーキテクチャを提案する。
実験は6つの公開データベースを使って行われ、合計で2200万以上の顔画像で構成されている。
論文 参考訳(メタデータ) (2024-02-14T15:09:01Z) - Gaussian Mixture Models for Affordance Learning using Bayesian Networks [50.18477618198277]
Affordancesはアクション、オブジェクト、エフェクト間の関係の基本的な記述である。
本稿では,世界を探究し,その感覚経験から自律的にこれらの余裕を学習するエンボディエージェントの問題にアプローチする。
論文 参考訳(メタデータ) (2024-02-08T22:05:45Z) - Meta-models for transfer learning in source localisation [3.8922067105369154]
この研究は、(メタモデルとして)AE実験間の相互依存性を捉えることを目的としている。
ハイレベルなメタモデルがタスク間関係をキャプチャするベイズ的マルチレベルアプローチを利用する。
主要な貢献は、実験的なキャンペーンの知識をタスクとタスクの間でエンコードする方法である。
論文 参考訳(メタデータ) (2023-05-15T14:02:35Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - A User-Guided Bayesian Framework for Ensemble Feature Selection in Life
Science Applications (UBayFS) [0.0]
本稿では,ベイズ統計フレームワークに組み込んだアンサンブル特徴選択手法UBayFSを提案する。
提案手法は,データとドメイン知識の2つの情報源を考慮し,特徴選択のプロセスを強化する。
標準的な機能セレクタとの比較では、UBayFSは競争力のあるパフォーマンスを実現し、ドメイン知識を組み込むための柔軟性を提供する。
論文 参考訳(メタデータ) (2021-04-30T06:51:33Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics [4.237343083490243]
機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。
StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
論文 参考訳(メタデータ) (2020-05-04T15:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。