論文の概要: Spoken ObjectNet: A Bias-Controlled Spoken Caption Dataset
- arxiv url: http://arxiv.org/abs/2110.07575v1
- Date: Thu, 14 Oct 2021 17:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 13:28:15.111857
- Title: Spoken ObjectNet: A Bias-Controlled Spoken Caption Dataset
- Title(参考訳): spoken objectnet:バイアス制御型音声キャプションデータセット
- Authors: Ian Palmer, Andrew Rouditchenko, Andrei Barbu, Boris Katz, James Glass
- Abstract要約: Spoken ObjectNetは、これらのバイアスの一部を除去し、実際のシナリオでモデルがいかに効果的に機能するかを評価する方法を提供するように設計されている。
このデータセットはObjectNetに拡張されている。ObjectNetはバイアス制御されたイメージデータセットで、ImageNetにあるものと同様の画像クラスを特徴としている。
結果は、他のデータセットでトレーニングされ、Spoke ObjectNetで評価されたモデルは、モデルが学んだ他のデータセットのバイアスのために、パフォーマンスが悪くなる傾向があることを示している。
- 参考スコア(独自算出の注目度): 14.44921491933053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually-grounded spoken language datasets can enable models to learn
cross-modal correspondences with very weak supervision. However, modern
audio-visual datasets contain biases that undermine the real-world performance
of models trained on that data. We introduce Spoken ObjectNet, which is
designed to remove some of these biases and provide a way to better evaluate
how effectively models will perform in real-world scenarios. This dataset
expands upon ObjectNet, which is a bias-controlled image dataset that features
similar image classes to those present in ImageNet. We detail our data
collection pipeline, which features several methods to improve caption quality,
including automated language model checks. Lastly, we show baseline results on
image retrieval and audio retrieval tasks. These results show that models
trained on other datasets and then evaluated on Spoken ObjectNet tend to
perform poorly due to biases in other datasets that the models have learned. We
also show evidence that the performance decrease is due to the dataset
controls, and not the transfer setting.
- Abstract(参考訳): 視覚的に接地した音声言語データセットは、モデルが非常に弱い監督の下でクロスモーダル対応を学習できる。
しかし、現代の視聴覚データセットには、そのデータに基づいて訓練されたモデルの現実世界のパフォーマンスを損なうバイアスが含まれている。
Spoken ObjectNetは、これらのバイアスの一部を除去し、実際のシナリオでモデルがいかに効果的に機能するかをよりよく評価する方法を提供する。
このデータセットは、imagenetに存在するものと同様のイメージクラスを持つバイアス制御イメージデータセットであるobjectnetに拡張される。
自動言語モデルチェックを含む、キャプション品質を改善するいくつかのメソッドを特徴とする、データ収集パイプラインについて詳しく説明します。
最後に,画像検索と音声検索に関する基本結果を示す。
これらの結果は、モデルが学習した他のデータセットのバイアスにより、他のデータセットでトレーニングされ、その後、音声によるobjectnetで評価されたモデルのパフォーマンスが低くなることを示している。
また,データ転送設定ではなく,データセット制御による性能低下が原因であることを示す。
関連論文リスト
- ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Rethinking Natural Adversarial Examples for Classification Models [43.87819913022369]
ImageNet-Aは、自然対比例の有名なデータセットです。
オブジェクト検出技術を用いたImageNet-A例の背景影響を低減して仮説を検証した。
実験により,様々な分類モデルを用いた物体検出モデルは,その分類モデルよりも精度が高かった。
論文 参考訳(メタデータ) (2021-02-23T14:46:48Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z) - ObjectNet Dataset: Reanalysis and Correction [47.64219291655723]
最近、BarbuらはObjectNetというデータセットを導入した。
彼らはこのデータセット上で、アートオブジェクト認識モデルの状態の劇的なパフォーマンス低下を示した。
分離されたオブジェクトではなく、複数のオブジェクトを含むシーンにオブジェクト認識器を適用するという、彼らの仕事における大きな問題を強調します。
論文 参考訳(メタデータ) (2020-04-04T22:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。