論文の概要: Benchmarking a Benchmark: How Reliable is MS-COCO?
- arxiv url: http://arxiv.org/abs/2311.02709v1
- Date: Sun, 5 Nov 2023 16:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:17:36.252722
- Title: Benchmarking a Benchmark: How Reliable is MS-COCO?
- Title(参考訳): ベンチマーク:ms-cocoはどの程度信頼できるのか?
- Authors: Eric Zimmermann, Justin Szeto, Jerome Pasquero, Frederic Ratle
- Abstract要約: MS-COCOの再注釈であるSama-COCOは、形状解析パイプラインを利用して潜在的なバイアスを発見するために用いられる。
モデルは、異なるアノテーション条件の影響を調べるために、両方のデータセットでトレーニングされ、評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmark datasets are used to profile and compare algorithms across a
variety of tasks, ranging from image classification to segmentation, and also
play a large role in image pretraining algorithms. Emphasis is placed on
results with little regard to the actual content within the dataset. It is
important to question what kind of information is being learned from these
datasets and what are the nuances and biases within them. In the following
work, Sama-COCO, a re-annotation of MS-COCO, is used to discover potential
biases by leveraging a shape analysis pipeline. A model is trained and
evaluated on both datasets to examine the impact of different annotation
conditions. Results demonstrate that annotation styles are important and that
annotation pipelines should closely consider the task of interest. The dataset
is made publicly available at https://www.sama.com/sama-coco-dataset/ .
- Abstract(参考訳): ベンチマークデータセットは、画像分類からセグメンテーションまで、さまざまなタスクにわたるアルゴリズムのプロファイルと比較に使用され、画像事前トレーニングアルゴリズムにおいて大きな役割を果たす。
データセット内の実際の内容にはほとんど関係のない結果に強調される。
これらのデータセットから学習される情報の種類や、その中のニュアンスやバイアスについて疑問を呈することは重要です。
以下の研究で、MS-COCOの再注釈であるSama-COCOは、形状解析パイプラインを利用して潜在的なバイアスを発見するために使用される。
モデルは、異なるアノテーション条件の影響を調べるために、両方のデータセットでトレーニングされ、評価される。
結果は、アノテーションスタイルが重要であり、アノテーションパイプラインが関心のあるタスクを深く検討すべきであることを示す。
データセットはhttps://www.sama.com/sama-coco-dataset/で公開されている。
関連論文リスト
- Comparing Importance Sampling Based Methods for Mitigating the Effect of
Class Imbalance [0.0]
我々は,損失再加重,アンダーサンプリング,オーバーサンプリングという,重要なサンプリングから導かれる3つのテクニックを比較した。
アンダーサンプリングにおける損失の重み付けは、アンダー表現されたクラスの性能に悪影響を及ぼすことがわかった。
我々の発見は、プラネタリーデータセットに何らかの冗長性が存在することも示唆している。
論文 参考訳(メタデータ) (2024-02-28T22:52:27Z) - A survey on recent advances in named entity recognition [10.02138130221506]
NERに対する最近のポピュラーなアプローチの概要を紹介する。
また,Large Language Models (LLMs) を含むグラフおよびトランスフォーマーベースの手法についても検討する。
我々は,異なる特徴を持つ各種データセット上での主NER実装の性能を評価する。
論文 参考訳(メタデータ) (2024-01-19T17:21:05Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - TrueDeep: A systematic approach of crack detection with less data [0.0]
ドメイン知識をディープラーニングアーキテクチャと組み合わせることで、少ないデータで同様のパフォーマンスを実現することができることを示す。
我々のアルゴリズムは、全データの23%で開発され、テストデータ上でも同様の性能を持ち、複数の盲点データセット上では大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-05-30T14:51:58Z) - A Bag-of-Prototypes Representation for Dataset-Level Applications [24.629132557336312]
本研究では,データセットレベルの2つのタスクに対するデータセットベクトル化について検討する。
本稿では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,Bop-of-prototypes(BoP)データセット表現を提案する。
BoPは、2つのデータセットレベルのタスクに対する一連のベンチマークにおいて、既存の表現に対する優位性を一貫して示している。
論文 参考訳(メタデータ) (2023-03-23T13:33:58Z) - Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation [107.72926721837726]
粗いアノテーションは、セマンティックセグメンテーションモデルをトレーニングするための、低コストで非常に効果的な代替手段である。
粗い注釈付きデータの未ラベル領域の擬似ラベルを生成する粗大な自己学習フレームワークを提案する。
提案手法は,アノテーションの予算のごく一部で完全に注釈付けされたデータに匹敵する性能が得られるため,大幅な性能向上とアノテーションのコストトレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-15T15:43:42Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。