Fugu-MT 論文翻訳(概要): Inferring Capabilities from Task Performance with Bayesian Triangulation

論文の概要: Inferring Capabilities from Task Performance with Bayesian Triangulation

arxiv url: http://arxiv.org/abs/2309.11975v1
Date: Thu, 21 Sep 2023 11:19:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 15:52:49.983232
Title: Inferring Capabilities from Task Performance with Bayesian Triangulation
Title（参考訳）: ベイズ三角測量によるタスク性能の推定
Authors: John Burden, Konstantinos Voudouris, Ryan Burnell, Danaja Rutar, Lucy Cheke, Jos\'e Hern\'andez-Orallo
Abstract要約: 本稿では,多様な実験データからシステムの認知的プロファイルを推定する手法について述べる。これらの特徴は、非人口データから機能を推測するために、複雑な方法で三角測量されなければならない。能力指向評価の可能性を示す。
参考スコア（独自算出の注目度）: 11.418934051317411
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As machine learning models become more general, we need to characterise them in richer, more meaningful ways. We describe a method to infer the cognitive profile of a system from diverse experimental data. To do so, we introduce measurement layouts that model how task-instance features interact with system capabilities to affect performance. These features must be triangulated in complex ways to be able to infer capabilities from non-populational data -- a challenge for traditional psychometric and inferential tools. Using the Bayesian probabilistic programming library PyMC, we infer different cognitive profiles for agents in two scenarios: 68 actual contestants in the AnimalAI Olympics and 30 synthetic agents for O-PIAAGETS, an object permanence battery. We showcase the potential for capability-oriented evaluation.
Abstract（参考訳）: 機械学習モデルがより一般的になるにつれて、より豊かで有意義な方法で特徴付ける必要があります。多様な実験データからシステムの認知プロファイルを推定する手法について述べる。そこで我々は,タスクインテンス機能とシステム機能との相互作用をモデル化し,性能に影響を及ぼす計測レイアウトを提案する。これらの機能は、非人口データから能力を予測するために複雑な方法で三角測量されなければならない。ベイズ確率論的プログラムライブラリPyMCを用いて,動物AIオリンピックの68人の実際の競技者と,オブジェクト永続電池O-PIAAGETSの30人の合成エージェントの2つのシナリオで,エージェントの認知プロファイルを推定した。我々は能力指向評価の可能性を示す。

関連論文リスト

UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文参考訳（メタデータ） (2025-09-24T03:33:20Z)
A Taxonomy of Transcendence [26.78660458573198]
制御された設定を使用して、トレーニングデータの特性を特定し、モデルがデータソースのパフォーマンスを超越する。次に、シミュレーション専門家が個々の専門知識に基づいてデータを生成する知識グラフベースの設定を導入する。
論文参考訳（メタデータ） (2025-08-25T05:05:00Z)
Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文参考訳（メタデータ） (2025-08-03T23:48:46Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文参考訳（メタデータ） (2024-12-09T12:27:21Z)
Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation [3.8570045844185237]
マルチトラックデータセットでトレーニングした新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介する。本モデルでは, エンコーダと予測器の2つのネットワークから構成される。 MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングから欠落した茎を見つける能力を検証した。
論文参考訳（メタデータ） (2024-08-05T14:34:40Z)
BEACON: A Bayesian Optimization Strategy for Novelty Search in Expensive Black-Box Systems [1.204357447396532]
ノベルティ・サーチ (NS) は、シミュレーションや実験を通じて様々なシステムの振る舞いを自動的に発見する探索アルゴリズムのクラスである。ベイズ最適化の原理にインスパイアされたサンプル効率のNS法を提案する。 BEACONは、限られたサンプリング予算の下で、かなり大きな多様な振る舞いの集合を見出すことで、既存のベースラインを総合的に上回ります。
論文参考訳（メタデータ） (2024-06-05T20:23:52Z)
Is my Data in your AI Model? Membership Inference Test with Application to Face Images [18.402616111394842]
この記事では、AI/MLモデルのトレーニング中に与えられたデータが使用されているかどうかを経験的に評価することを目的とした新しいアプローチである、メンバシップ推論テスト(MINT)を紹介します。本稿では,学習過程に使用されるデータに監査モデルが露出した場合に現れるアクティベーションパターンを学習するための2つのMINTアーキテクチャを提案する。実験は6つの公開データベースを使って行われ、合計で2200万以上の顔画像で構成されている。
論文参考訳（メタデータ） (2024-02-14T15:09:01Z)
Gaussian Mixture Models for Affordance Learning using Bayesian Networks [50.18477618198277]
Affordancesはアクション、オブジェクト、エフェクト間の関係の基本的な記述である。本稿では,世界を探究し,その感覚経験から自律的にこれらの余裕を学習するエンボディエージェントの問題にアプローチする。
論文参考訳（メタデータ） (2024-02-08T22:05:45Z)
Meta-models for transfer learning in source localisation [3.8922067105369154]
この研究は、(メタモデルとして)AE実験間の相互依存性を捉えることを目的としている。ハイレベルなメタモデルがタスク間関係をキャプチャするベイズ的マルチレベルアプローチを利用する。主要な貢献は、実験的なキャンペーンの知識をタスクとタスクの間でエンコードする方法である。
論文参考訳（メタデータ） (2023-05-15T14:02:35Z)
Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。 GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文参考訳（メタデータ） (2022-07-20T07:32:02Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文参考訳（メタデータ） (2021-11-23T10:53:29Z)
A User-Guided Bayesian Framework for Ensemble Feature Selection in Life Science Applications (UBayFS) [0.0]
本稿では,ベイズ統計フレームワークに組み込んだアンサンブル特徴選択手法UBayFSを提案する。提案手法は,データとドメイン知識の2つの情報源を考慮し,特徴選択のプロセスを強化する。標準的な機能セレクタとの比較では、UBayFSは競争力のあるパフォーマンスを実現し、ドメイン知識を組み込むための柔軟性を提供する。
論文参考訳（メタデータ） (2021-04-30T06:51:33Z)
Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文参考訳（メタデータ） (2021-01-16T23:45:02Z)
A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文参考訳（メタデータ） (2020-06-22T08:35:58Z)
StackGenVis: Alignment of Data, Algorithms, and Models for Stacking Ensemble Learning Using Performance Metrics [4.237343083490243]
機械学習(ML)では、バッグング、ブースティング、スタックングといったアンサンブル手法が広く確立されている。 StackGenVisは、スタック化された一般化のためのビジュアル分析システムである。
論文参考訳（メタデータ） (2020-05-04T15:43:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。