Fugu-MT 論文翻訳(概要): SOOD-ImageNet: a Large-Scale Dataset for Semantic Out-Of-Distribution Image Classification and Semantic Segmentation

論文の概要: SOOD-ImageNet: a Large-Scale Dataset for Semantic Out-Of-Distribution Image Classification and Semantic Segmentation

arxiv url: http://arxiv.org/abs/2409.01109v1
Date: Mon, 2 Sep 2024 09:37:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 07:26:52.402879
Title: SOOD-ImageNet: a Large-Scale Dataset for Semantic Out-Of-Distribution Image Classification and Semantic Segmentation
Title（参考訳）: SOOD-ImageNet:Semantic Out-Of-Distribution Image ClassificationとSemantic Segmentationのための大規模データセット
Authors: Alberto Bacchin, Davide Allegro, Stefano Ghidoni, Emanuele Menegatti,
Abstract要約: コンピュータビジョンにおけるアウト・オブ・ディストリビューション(OOD)検出は重要な研究領域である。 SOOD-ImageNetは56のクラスにまたがる1.6万の画像からなる新しいデータセットである。 OOD条件下でのイメージ分類やセマンティックセグメンテーションなどの一般的なコンピュータビジョンタスクのために設計されている。
参考スコア（独自算出の注目度）: 6.21476985578569
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Out-of-Distribution (OOD) detection in computer vision is a crucial research area, with related benchmarks playing a vital role in assessing the generalizability of models and their applicability in real-world scenarios. However, existing OOD benchmarks in the literature suffer from two main limitations: (1) they often overlook semantic shift as a potential challenge, and (2) their scale is limited compared to the large datasets used to train modern models. To address these gaps, we introduce SOOD-ImageNet, a novel dataset comprising around 1.6M images across 56 classes, designed for common computer vision tasks such as image classification and semantic segmentation under OOD conditions, with a particular focus on the issue of semantic shift. We ensured the necessary scalability and quality by developing an innovative data engine that leverages the capabilities of modern vision-language models, complemented by accurate human checks. Through extensive training and evaluation of various models on SOOD-ImageNet, we showcase its potential to significantly advance OOD research in computer vision. The project page is available at https://github.com/bach05/SOODImageNet.git.
Abstract（参考訳）: コンピュータビジョンにおけるアウト・オブ・ディストリビューション(OOD)の検出は重要な研究領域であり、関連するベンチマークは実際のシナリオにおけるモデルの一般化可能性とその適用性を評価する上で重要な役割を果たす。しかし、文献における既存のOODベンチマークには、1)潜在的な課題としてセマンティックシフトを見落としている場合が多く、(2)現代のモデルのトレーニングに使用される大規模なデータセットと比較して、その規模は限られている。これらのギャップに対処するために,OOD条件下でのイメージ分類やセマンティックセグメンテーションなどのコンピュータビジョンタスクのために設計された,56のクラスにまたがる約1.6万の画像からなる新しいデータセットSOOD-ImageNetを紹介し,セマンティックシフトの問題に焦点をあてる。我々は、人間の正確なチェックによって補完される現代の視覚言語モデルの能力を活用する革新的なデータエンジンを開発することで、必要なスケーラビリティと品質を確保した。我々は,SOOD-ImageNetにおける様々なモデルの広範囲なトレーニングと評価を通じて,OOD研究をコンピュータビジョンで大きく前進させる可能性を示す。プロジェクトページはhttps://github.com/bach05/SOODImageNet.gitで公開されている。

関連論文リスト

LAION-C: An Out-of-Distribution Benchmark for Web-Scale Vision Models [19.56756019309533]
我々は、ImageNet-Cのベンチマーク代替としてLAION-Cを紹介した。最先端モデルの包括的評価では、LAION-Cデータセットが現代モデルに重大な課題をもたらすことが判明した。我々は、OOD一般化におけるパラダイムシフトを観察する:人間よりも優れたモデルから、現在最高の人間のオブザーバに適合または優れたモデルへ。
論文参考訳（メタデータ） (2025-06-20T12:32:27Z)
Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文参考訳（メタデータ） (2025-05-20T13:47:40Z)
Beyond Accuracy: What Matters in Designing Well-Behaved Models? [53.252827682118955]
視覚言語モデルでは,ImageNet-1k分類に高い公正性を示し,ドメイン変更に対して強い堅牢性を示す。 QUBAスコア(QUBA score)は、複数の品質の次元にまたがってモデルをランク付けする新しい指標である。
論文参考訳（メタデータ） (2025-03-21T12:54:18Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
In Search of Forgotten Domain Generalization [20.26519807919284]
Out-of-Domain (OOD) 一般化は、1つ以上のドメインでトレーニングされたモデルが見えないドメインに一般化する能力である。コンピュータビジョンのImageNet時代において、モデルのOOD性能を測定するための評価セットは、スタイルに関して厳密にOODであるように設計されていた。基礎モデルや拡張Webスケールデータセットの出現は、この評価プロセスを邪魔している。
論文参考訳（メタデータ） (2024-10-10T17:50:45Z)
Effectiveness of Vision Language Models for Open-world Single Image Test Time Adaptation [15.621092104244003]
単体テスト時間適応の現実的な課題に対処する新しい枠組みを提案する。私たちは、CLIPのような大規模ビジョン言語モデルを活用して、画像毎のリアルタイム適応を可能にします。提案するフレームワークROSITAはこれらのコンポーネントを組み合わせて、ビジョン言語モデルのオンライン適応を可能にする。
論文参考訳（メタデータ） (2024-06-01T16:21:42Z)
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSはシーンレベルで多数の調整可能なパラメータをサポートする。アプリケーションシナリオを3つ紹介する。
論文参考訳（メタデータ） (2024-05-15T17:57:56Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (2023-12-01T18:59:57Z)
Adaptive Contextual Perception: How to Generalize to New Backgrounds and Ambiguous Objects [75.15563723169234]
本研究では,視覚モデルが分布外一般化の文脈をどのように適応的に利用するかを検討する。 1つの設定で優れているモデルは、もう1つの設定で苦労する傾向があります。生物学的視覚の一般化能力を再現するためには、コンピュータビジョンモデルは背景表現に対して分解対象を持つ必要がある。
論文参考訳（メタデータ） (2023-06-09T15:29:54Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
High-resolution semantically-consistent image-to-image translation [0.0]
本稿では,スタイル変換フェーズにおける画像のセマンティック一貫性と画素単位の品質を保った教師なし領域適応モデルを提案する。提案モデルでは,SemI2Iモデルと比較してかなりの性能向上を示し,最先端のCyCADAモデルと同様の結果を得た。
論文参考訳（メタデータ） (2022-09-13T19:08:30Z)
Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文参考訳（メタデータ） (2022-02-16T22:26:47Z)
Benchmarking the Robustness of Instance Segmentation Models [3.1287804585804073]
本稿では,実世界の画像の破損や領域外画像の収集に関して,インスタンス分割モデルの包括的評価を行う。領域外画像評価は、実世界のアプリケーションにおいて重要な側面であるモデルの一般化能力を示している。具体的には、最先端のネットワークアーキテクチャ、ネットワークバックボーン、正規化レイヤ、スクラッチからトレーニングされたモデル、ImageNet事前訓練ネットワークが含まれる。
論文参考訳（メタデータ） (2021-09-02T17:50:07Z)
Deep Learning of Unified Region, Edge, and Contour Models for Automated Image Segmentation [2.0305676256390934]
畳み込みニューラルネットワーク(CNN)は,自動セグメンテーションパイプラインの設計において注目を集めている。 CNNベースのモデルは、生の画像データから抽象的な特徴を学ぶには十分だが、それらのパフォーマンスは、適切なトレーニングデータセットの可用性とサイズに依存している。本稿では,これらの問題に対処する新しい手法を考案し,完全自動セマンティックセマンティックセグメンテーションのための堅牢な表現学習フレームワークを構築した。
論文参考訳（メタデータ） (2020-06-23T02:54:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。