論文の概要: How Aligned are Different Alignment Metrics?
- arxiv url: http://arxiv.org/abs/2407.07530v1
- Date: Wed, 10 Jul 2024 10:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:01:49.111562
- Title: How Aligned are Different Alignment Metrics?
- Title(参考訳): 異なるアライメントメトリクスはどの程度アライメントされているか?
- Authors: Jannis Ahlert, Thomas Klein, Felix Wichmann, Robert Geirhos,
- Abstract要約: 我々はBrain-Scoreの視覚データを人間の類似性やアライメントの指標とともに分析する。
ニューラルスコアと行動スコアの相互相関は非常に低く、時にはネガティブである。
この結果は,統合的ベンチマークの重要性を浮き彫りにしているだけでなく,個々のメトリクスを正しく組み合わせて集約する方法に関する疑問も提起している。
- 参考スコア(独自算出の注目度): 6.172390472790253
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, various methods and benchmarks have been proposed to empirically evaluate the alignment of artificial neural networks to human neural and behavioral data. But how aligned are different alignment metrics? To answer this question, we analyze visual data from Brain-Score (Schrimpf et al., 2018), including metrics from the model-vs-human toolbox (Geirhos et al., 2021), together with human feature alignment (Linsley et al., 2018; Fel et al., 2022) and human similarity judgements (Muttenthaler et al., 2022). We find that pairwise correlations between neural scores and behavioral scores are quite low and sometimes even negative. For instance, the average correlation between those 80 models on Brain-Score that were fully evaluated on all 69 alignment metrics we considered is only 0.198. Assuming that all of the employed metrics are sound, this implies that alignment with human perception may best be thought of as a multidimensional concept, with different methods measuring fundamentally different aspects. Our results underline the importance of integrative benchmarking, but also raise questions about how to correctly combine and aggregate individual metrics. Aggregating by taking the arithmetic average, as done in Brain-Score, leads to the overall performance currently being dominated by behavior (95.25% explained variance) while the neural predictivity plays a less important role (only 33.33% explained variance). As a first step towards making sure that different alignment metrics all contribute fairly towards an integrative benchmark score, we therefore conclude by comparing three different aggregation options.
- Abstract(参考訳): 近年,人工ニューラルネットワークと人間の神経・行動データとのアライメントを実証的に評価するための様々な手法やベンチマークが提案されている。
しかし、アライメントのメトリクスはどのように一致しますか?
この質問に答えるために、我々はBrain-Score (Schrimpf et al , 2018) の視覚データを分析し、モデル-vs- Humanツールボックス (Geirhos et al , 2021) と人間の特徴アライメント (Linsley et al , 2018; Fel et al , 2022) と人間の類似性判定 (Muttenthaler et al , 2022) のメトリクスを含む。
ニューラルスコアと行動スコアの相互相関は非常に低く、時にはネガティブである。
例えば、我々が検討した69のアライメントメトリクスすべてで完全に評価されたBrain-Score上の80モデルの平均相関は0.198である。
採用された指標がすべて健全であると仮定すると、これは人間の知覚との整合性を多次元の概念とみなすのが最善であることを意味し、異なる方法が根本的に異なる側面を測る。
この結果は,統合的ベンチマークの重要性を浮き彫りにしているだけでなく,個々のメトリクスを正しく組み合わせて集約する方法に関する疑問も提起している。
脳スコア(Brain-Score)による算術平均値の集計により、現在のパフォーマンスは行動に支配されている(95.25%が分散を説明)一方、神経予測率はより重要でない(33.33%が分散を説明)。
異なるアライメントの指標がすべて、積分ベンチマークスコアにかなり寄与することを確認するための第一歩として、3つの異なるアグリゲーションオプションを比較して結論付ける。
関連論文リスト
- An unsupervised learning approach to evaluate questionnaire data -- what
one can learn from violations of measurement invariance [2.4762962548352467]
本稿では,このような研究データに対する教師なし学習に基づくアプローチを提案する。
データ準備、アンケートのクラスタリング、得られたクラスタリングと各グループの特性に基づいて類似度を測定する。
グループ間の自然な比較と、グループの応答パターンの自然な記述を提供する。
論文 参考訳(メタデータ) (2023-12-11T11:31:41Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - Can neural networks count digit frequency? [16.04455549316468]
本研究では,従来の機械学習モデルとニューラルネットワークの性能を比較し,各桁の出現頻度を推定する。
ニューラルネットワークは6桁と10桁の両方のレグレッションと分類の指標で、従来の機械学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-09-25T03:45:36Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Estimating Structural Disparities for Face Models [54.062512989859265]
機械学習では、異なるサブ人口間でのモデルの性能や結果の差を測定することで、しばしば異質度の測定が定義される。
本研究では、人間の顔に訓練されたコンピュータビジョンモデルや、顔属性予測や影響推定などのタスクについて、そのような分析を行う。
論文 参考訳(メタデータ) (2022-04-13T05:30:53Z) - A First Step Towards Distribution Invariant Regression Metrics [1.370633147306388]
分類において、F-Measure や Accuracy のようなパフォーマンス指標は、クラス分布に大きく依存していると繰り返し述べられている。
ロボットアプリケーションにおけるオドメトリパラメータの分布は,例えば,異なるセッション間で大きく異なる可能性がある。
ここでは、すべての関数値に対して等しく機能する回帰アルゴリズムや、高速のような特定の境界領域にフォーカスする回帰アルゴリズムが必要です。
論文 参考訳(メタデータ) (2020-09-10T23:40:46Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z) - Batch Decorrelation for Active Metric Learning [21.99577268213412]
本稿では,三重項に基づく類似度評価を行い,距離指標のパラメトリックモデルを学習するためのアクティブな学習戦略を提案する。
クラスベースの学習における先行研究とは対照的に、オブジェクト間の(異なる)相似性のエム度を表現するエムメトリクスに焦点を当てる。
論文 参考訳(メタデータ) (2020-05-20T12:47:48Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。