論文の概要: Does Progress On Object Recognition Benchmarks Improve Real-World
Generalization?
- arxiv url: http://arxiv.org/abs/2307.13136v1
- Date: Mon, 24 Jul 2023 21:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 18:54:45.105358
- Title: Does Progress On Object Recognition Benchmarks Improve Real-World
Generalization?
- Title(参考訳): オブジェクト認識ベンチマークの進歩は現実世界の一般化を改善するか?
- Authors: Megan Richards, Polina Kirichenko, Diane Bouchacourt, Mark Ibrahim
- Abstract要約: ImageNet-A、-C、-Rのようなイメージネットベースの一般化ベンチマークでは、10年以上オブジェクト認識の進歩が測定されている。
膨大なデータに基づいて訓練された基礎モデルの最近の進歩は、これらの標準ベンチマークを飽和させ始めているが、実際には不安定なままである。
本研究では,世界各国の家庭から得られた2つのオブジェクトのデータセットを用いて,より現実的な進捗の指標として,地理横断の一般化について検討する。
- 参考スコア(独自算出の注目度): 9.906591021385303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For more than a decade, researchers have measured progress in object
recognition on ImageNet-based generalization benchmarks such as ImageNet-A, -C,
and -R. Recent advances in foundation models, trained on orders of magnitude
more data, have begun to saturate these standard benchmarks, but remain brittle
in practice. This suggests standard benchmarks, which tend to focus on
predefined or synthetic changes, may not be sufficient for measuring real world
generalization. Consequently, we propose studying generalization across
geography as a more realistic measure of progress using two datasets of objects
from households across the globe. We conduct an extensive empirical evaluation
of progress across nearly 100 vision models up to most recent foundation
models. We first identify a progress gap between standard benchmarks and
real-world, geographical shifts: progress on ImageNet results in up to 2.5x
more progress on standard generalization benchmarks than real-world
distribution shifts. Second, we study model generalization across geographies
by measuring the disparities in performance across regions, a more fine-grained
measure of real world generalization. We observe all models have large
geographic disparities, even foundation CLIP models, with differences of 7-20%
in accuracy between regions. Counter to modern intuition, we discover progress
on standard benchmarks fails to improve geographic disparities and often
exacerbates them: geographic disparities between the least performant models
and today's best models have more than tripled. Our results suggest scaling
alone is insufficient for consistent robustness to real-world distribution
shifts. Finally, we highlight in early experiments how simple last layer
retraining on more representative, curated data can complement scaling as a
promising direction of future work, reducing geographic disparity on both
benchmarks by over two-thirds.
- Abstract(参考訳): 研究者は10年以上にわたって、ImageNet-A、-C、-Rといった画像ネットベースの一般化ベンチマークでオブジェクト認識の進歩を測定してきた。
膨大なデータに基づいて訓練された基礎モデルの最近の進歩は、これらの標準ベンチマークを飽和させ始めているが、実際には不安定なままである。
これは、事前定義されたまたは合成的な変化に焦点をあてる標準ベンチマークは、現実世界の一般化を測定するのに十分でないかもしれないことを示唆している。
そこで本研究では,地球上の家庭からの2つのオブジェクトのデータセットを用いて,より現実的な進捗の指標として,地理の一般化について検討する。
我々は、最新の基礎モデルまで、100近い視覚モデルにまたがる進捗の広範な実証的な評価を行う。
imagenetの進歩は、実世界の分散シフトよりも、標準の一般化ベンチマークの最大2.5倍の進歩をもたらします。
第2に,実世界の一般化のよりきめ細かな尺度である地域間のパフォーマンスの相違を計測し,地域間でのモデル一般化について検討する。
地域によって精度が7-20%異なるCLIPモデルさえも,すべてのモデルは地理的に大きな差異がある。
現代の直観とは対照的に、標準ベンチマークの進歩は地理的格差の改善に失敗し、しばしばさらに悪化する: もっともパフォーマンスの低いモデルと今日の最高のモデルの間の地理的格差は3倍以上になっている。
以上の結果から,実世界の分布シフトに対する一貫性は,スケーリングだけでは不十分であることが示唆された。
最後に、私たちは初期の実験で、より代表的でキュレートされたデータに対する最後のレイヤの再トレーニングが、将来の作業の有望な方向性としてスケーリングを補完し、両方のベンチマークの地理的格差を3分の2以上削減できる点を強調しています。
関連論文リスト
- Diverse Perspectives, Divergent Models: Cross-Cultural Evaluation of Depression Detection on Twitter [4.462334751640166]
我々は、異文化のTwitterデータに基づくAIモデルを構築するためのベンチマークデータセットの一般化を評価する。
以上の結果から,抑うつ検出モデルが世界規模で一般化しないことが示唆された。
事前訓練された言語モデルは、ロジスティック回帰と比較して最高の一般化を達成するが、落ち込んだユーザーと非西洋人ユーザーには依然として大きな差がある。
論文 参考訳(メタデータ) (2024-04-01T03:59:12Z) - Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning [6.532114018212791]
微調整された視覚言語事前学習モデルは、競争力やより強い一般化結果をもたらす。
これは、ドメインの一般化にImageNetベースの転送学習を使用するという標準に挑戦する。
また、ドメイン内一般化の改善により、Cityscapesテストセットの86.4% mIoUのSOTAが改善された。
論文 参考訳(メタデータ) (2023-12-04T16:46:38Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Image Classification with Small Datasets: Overview and Benchmark [0.0]
私たちは過去の研究を体系的に組織化し、結合し、現在分断され散らばっているコミュニティを統合する。
本稿では,アプローチの客観的比較を可能にする共通ベンチマークを提案する。
このベンチマークを用いて、標準のクロスエントロピーベースラインと、有名な会場で2017年から2021年にかけて発行された10の既存手法を再評価する。
論文 参考訳(メタデータ) (2022-12-23T17:11:16Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Do Fine-tuned Commonsense Language Models Really Generalize? [8.591839265985412]
厳密な科学的研究を設計・実施することで、一般化問題を詳細に研究する。
実験装置の適度な変更があっても、微調整されたコモンセンス言語モデルがまだうまく一般化していないという明確な証拠が得られます。
論文 参考訳(メタデータ) (2020-11-18T08:52:49Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。