論文の概要: Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology
- arxiv url: http://arxiv.org/abs/2505.02825v1
- Date: Mon, 05 May 2025 17:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.762017
- Title: Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology
- Title(参考訳): 視覚モデルの応用的評価に向けて:生態・生物学を事例として
- Authors: Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann, Hemal Naik, Iain D. Couzin, Majid Mirmehdi, Noël Adiko Houa, Emmanuelle Normand, Christophe Boesch, Lukas Boesch, Mimi Arandjelovic, Hjalmar Kühl, Tilo Burghardt, Fumihiro Kano,
- Abstract要約: 強力な機械学習性能(例:87% mAP)を持つモデルでさえ、専門家由来のデータと比較して、アバンダンス推定に矛盾をもたらすデータが得られることを示す。
これらの知見に触発され,生態・生物学的データセットにアプリケーション固有の指標を統合するよう研究者に呼びかけた。
- 参考スコア(独自算出の注目度): 9.281480445109484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision methods have demonstrated considerable potential to streamline ecological and biological workflows, with a growing number of datasets and models becoming available to the research community. However, these resources focus predominantly on evaluation using machine learning metrics, with relatively little emphasis on how their application impacts downstream analysis. We argue that models should be evaluated using application-specific metrics that directly represent model performance in the context of its final use case. To support this argument, we present two disparate case studies: (1) estimating chimpanzee abundance and density with camera trap distance sampling when using a video-based behaviour classifier and (2) estimating head rotation in pigeons using a 3D posture estimator. We show that even models with strong machine learning performance (e.g., 87% mAP) can yield data that leads to discrepancies in abundance estimates compared to expert-derived data. Similarly, the highest-performing models for posture estimation do not produce the most accurate inferences of gaze direction in pigeons. Motivated by these findings, we call for researchers to integrate application-specific metrics in ecological/biological datasets, allowing for models to be benchmarked in the context of their downstream application and to facilitate better integration of models into application workflows.
- Abstract(参考訳): コンピュータビジョンの手法は、生態学的および生物学的ワークフローを効率化する可能性を示しており、研究コミュニティで利用可能なデータセットやモデルが増えている。
しかしながら、これらのリソースは主に機械学習メトリクスを使用した評価に重点を置いており、アプリケーションが下流分析にどのように影響するかにはあまり重点を置いていない。
我々は、最終的なユースケースのコンテキストにおいて、モデルのパフォーマンスを直接表現するアプリケーション固有のメトリクスを使用してモデルを評価するべきであると論じる。
この議論を支持するために,(1)ビデオベース行動分類器を用いた場合のチンパンジー量の推定とカメラトラップ距離サンプリングによる密度推定,(2)3次元姿勢推定器を用いたハトの頭部回転推定の2つの異なるケーススタディを提案する。
強力な機械学習性能(例:87% mAP)を持つモデルでさえ、専門家由来のデータと比較すると、アバンダンス推定に矛盾をもたらすデータが得られることが示される。
同様に、姿勢推定の最高性能モデルは、ハトにおける視線方向の最も正確な推測を導き出さない。
これらの発見に触発されて、研究者たちは、生態学的/生物学的データセットにアプリケーション固有のメトリクスを統合することを求め、ダウンストリームアプリケーションのコンテキストでモデルをベンチマークし、アプリケーションワークフローへのモデルのより良い統合を容易にする。
関連論文リスト
- GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models [41.76935689355034]
識別的および生成的事前学習により、強力な一般化能力を持つ幾何推定モデルが得られた。
幾何推定モデルの評価と解析のための,公平で強力なベースラインを構築した。
多様なシーンと高品質なアノテーションを用いた幾何推定タスクにおいて,より困難なベンチマークを用いて,単色幾何推定器の評価を行った。
論文 参考訳(メタデータ) (2024-06-18T14:44:12Z) - The Paradox of Motion: Evidence for Spurious Correlations in
Skeleton-based Gait Recognition Models [4.089889918897877]
本研究は、視覚に基づく歩行認識が主に動きパターンに依存しているという一般的な仮定に挑戦する。
高さ情報の除去が顕著な性能低下につながることを比較分析により示す。
本研究では,時間的情報を無視して個々のポーズを処理する空間変換器モデルを提案する。
論文 参考訳(メタデータ) (2024-02-13T09:33:12Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Representer Point Selection for Explaining Regularized High-dimensional
Models [105.75758452952357]
本稿では,高次元表現器と呼ぶサンプルベース説明のクラスを紹介する。
私たちのワークホースは、一般化された高次元モデルに対する新しい代表者定理である。
提案手法の実証的性能について,実世界の2進分類データセットと2つの推薦システムデータセットを用いて検討した。
論文 参考訳(メタデータ) (2023-05-31T16:23:58Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。