論文の概要: Evaluation metrics for behaviour modeling
- arxiv url: http://arxiv.org/abs/2007.12298v1
- Date: Thu, 23 Jul 2020 23:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:04:03.682220
- Title: Evaluation metrics for behaviour modeling
- Title(参考訳): 行動モデリングのための評価メトリクス
- Authors: Daniel Jiwoong Im, Iljung Kwak, Kristin Branson
- Abstract要約: 模倣学習を用いて学習した行動生成モデルの評価と比較のための指標を提案し,検討する。
これらの基準は、行動におけるより長い時間的関係を考察し、振る舞いが本質的に予測不可能な性質を持つ場合と関係し、モデルによって生成された行動の全体分布におけるバイアスを強調する。
提案手法は, 生物学者の行動に関する直観と一致し, モデルの評価, バイアスの理解, 新たな研究方向性の提案を可能にした。
- 参考スコア(独自算出の注目度): 2.616915680939834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A primary difficulty with unsupervised discovery of structure in large data
sets is a lack of quantitative evaluation criteria. In this work, we propose
and investigate several metrics for evaluating and comparing generative models
of behavior learned using imitation learning. Compared to the commonly-used
model log-likelihood, these criteria look at longer temporal relationships in
behavior, are relevant if behavior has some properties that are inherently
unpredictable, and highlight biases in the overall distribution of behaviors
produced by the model. Pointwise metrics compare real to model-predicted
trajectories given true past information. Distribution metrics compare
statistics of the model simulating behavior in open loop, and are inspired by
how experimental biologists evaluate the effects of manipulations on animal
behavior. We show that the proposed metrics correspond with biologists'
intuitions about behavior, and allow us to evaluate models, understand their
biases, and enable us to propose new research directions.
- Abstract(参考訳): 大規模データセットの構造を教師なしで発見することの主な困難は、定量的評価基準の欠如である。
本研究では,模倣学習を用いて学習した行動生成モデルの評価と比較のための指標を提案する。
一般的に使用されるモデルログの類似性と比較すると、これらの基準は行動の時間的関係を長くし、行動が本質的に予測不能な性質を持つ場合に関連し、モデルによって生成される行動の全体分布のバイアスを強調する。
ポイントワイドメトリクスは、真の過去の情報が与えられたモデル予測軌跡と比較する。
分布測定は、オープンループの挙動をシミュレートするモデルの統計を比較し、実験生物学者が動物の行動に対する操作の効果を評価する方法に着想を得ている。
提案する指標は,行動に関する生物学者の直観と一致し,モデルを評価し,バイアスを理解し,新たな研究の方向性を提案する。
関連論文リスト
- Analyzing Generative Models by Manifold Entropic Metrics [8.477943884416023]
抽出可能な情報理論評価指標を新たに導入する。
EMNISTデータセット上の各種正規化フローアーキテクチャと$beta$-VAEを比較した。
私たちの実験で最も興味深い発見は、トレーニング中に整列および非整合表現に収束する誘導バイアスの観点から、モデルアーキテクチャとトレーニング手順のランク付けです。
論文 参考訳(メタデータ) (2024-10-25T09:35:00Z) - Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。
本手法は, 推定手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-08-26T08:39:09Z) - Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。
有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文 参考訳(メタデータ) (2024-08-19T17:52:38Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Faithful Model Evaluation for Model-Based Metrics [22.753929098534403]
モデルに基づくメトリクスの重要度テストの数学的基礎を確立する。
モデルに基づく測定値のサンプル分散を計算するために, 計量モデル誤差を考慮すると, 特定の実験における結論が変化することを示す。
論文 参考訳(メタデータ) (2023-12-19T19:41:33Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Comparing merging behaviors observed in naturalistic data with behaviors
generated by a machine learned model [4.879725885276143]
道路走行を事例として検討し,2つの慣れ親しんだ行動現象の存在を定量的に示すための指標を提案する。
最先端機械学習モデルの出力に全く同じ測定値を適用することで、モデルは前者の現象を再現できるが後者は再現できないことを示した。
論文 参考訳(メタデータ) (2021-04-21T12:31:29Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。