論文の概要: Benchmarking and Analyzing Generative Data for Visual Recognition
- arxiv url: http://arxiv.org/abs/2307.13697v1
- Date: Tue, 25 Jul 2023 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 15:58:46.144418
- Title: Benchmarking and Analyzing Generative Data for Visual Recognition
- Title(参考訳): 視覚認識のための生成データのベンチマークと解析
- Authors: Bo Li, Haotian Liu, Liangyu Chen, Yong Jae Lee, Chunyuan Li, Ziwei Liu
- Abstract要約: この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。
我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。
我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
- 参考スコア(独自算出の注目度): 66.55174903469722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Advancements in large pre-trained generative models have expanded their
potential as effective data generators in visual recognition. This work delves
into the impact of generative images, primarily comparing paradigms that
harness external data (\ie generative \vs retrieval \vs original).
Our key contributions are: \textbf{1) GenBench Construction:} We devise
\textbf{GenBench}, a broad benchmark comprising 22 datasets with 2548
categories, to appraise generative data across various visual recognition
tasks. \textbf{2) CLER Score:} To address the insufficient correlation of
existing metrics (\eg, FID, CLIP score) with downstream recognition
performance, we propose \textbf{CLER}, a training-free metric indicating
generative data's efficiency for recognition tasks prior to training.
\textbf{3) New Baselines:} Comparisons of generative data with retrieved data
from the same external pool help to elucidate the unique traits of generative
data. \textbf{4) External Knowledge Injection:} By fine-tuning special token
embeddings for each category via Textual Inversion, performance improves across
17 datasets, except when dealing with low-resolution reference images.
Our exhaustive benchmark and analysis spotlight generative data's promise in
visual recognition, while identifying key challenges for future investigation.
- Abstract(参考訳): 大規模な事前学習型生成モデルの進歩は、視覚認識に有効なデータジェネレータとしての可能性を広げている。
この研究は生成的画像の影響を掘り下げ、主に外部データを利用するパラダイムを比較する(生成的 \vs 検索はオリジナル)。
主要なコントリビューションは以下のとおりである。 \textbf{1) GenBench Construction:} 様々な視覚的認識タスクにおける生成データを評価するために、2548のカテゴリを持つ22のデータセットからなる広範なベンチマークである \textbf{GenBench} を考案する。
CLERスコア:} 既存のメトリクス(\eg, FID, CLIPスコア)と下流認識性能の相関が不十分なことを解決するために, 学習前の認識タスクに対する生成データの効率を示すトレーニング不要な指標である \textbf{CLER} を提案する。
\textbf{3) 新しいベースライン:} 生成データと同じ外部プールから取得したデータの比較は、生成データのユニークな特徴を明らかにするのに役立つ。
textbf{4) 外部知識注入:} テキスト変換による各カテゴリの特別なトークン埋め込みを微調整することにより、低解像度の参照イメージを扱う場合を除き、パフォーマンスが17データセットにわたって改善される。
我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束を示唆している。
関連論文リスト
- Weak-Annotation of HAR Datasets using Vision Foundation Models [9.948823510429902]
本稿では,アノテータがアノテータに注釈を付ける必要のあるデータの量を大幅に削減する,新しいクラスタリングベースのアノテーションパイプラインを提案する。
提案手法を用いることで,3つのHARベンチマークデータセットに対して平均的なラベル付け精度を90%近い精度で達成できることがわかった。
論文 参考訳(メタデータ) (2024-08-09T16:46:53Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z) - View Distillation with Unlabeled Data for Extracting Adverse Drug
Effects from User-Generated Data [21.0706831551535]
本稿では,ソーシャルメディアデータ中の逆薬物反応を同定するアルゴリズムを提案する。
本モデルでは,問題の性質と文脈的単語埋め込みの特性に依存している。
我々は、我々のモデルを、利用可能な最大のADRデータセットで評価する。
論文 参考訳(メタデータ) (2021-05-24T15:38:08Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。