論文の概要: Gestalt-Guided Image Understanding for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2302.03922v1
- Date: Wed, 8 Feb 2023 07:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:07:08.044077
- Title: Gestalt-Guided Image Understanding for Few-Shot Learning
- Title(参考訳): 数点学習のためのgestalt誘導画像理解
- Authors: Kun Song, Yuchen Wu, Jiansheng Chen, Tianyu Hu, and Huimin Ma
- Abstract要約: 本稿では,ゲシュタルト心理学を数ショット学習に適用し,GGIUと呼ばれるプラグアンドプレイ手法を提案する。
画像特徴抽出のためのトータルティガイド画像理解とクロージャガイド画像理解を設計する。
提案手法は,既存のモデルの性能をトレーニングや微調整なしに効果的かつ柔軟に向上させることができる。
- 参考スコア(独自算出の注目度): 19.83265038667386
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the scarcity of available data, deep learning does not perform well on
few-shot learning tasks. However, human can quickly learn the feature of a new
category from very few samples. Nevertheless, previous work has rarely
considered how to mimic human cognitive behavior and apply it to few-shot
learning. This paper introduces Gestalt psychology to few-shot learning and
proposes Gestalt-Guided Image Understanding, a plug-and-play method called
GGIU. Referring to the principle of totality and the law of closure in Gestalt
psychology, we design Totality-Guided Image Understanding and Closure-Guided
Image Understanding to extract image features. After that, a feature estimation
module is used to estimate the accurate features of images. Extensive
experiments demonstrate that our method can improve the performance of existing
models effectively and flexibly without retraining or fine-tuning. Our code is
released on https://github.com/skingorz/GGIU.
- Abstract(参考訳): 利用可能なデータの不足のため、ディープラーニングは、少数の学習タスクではうまく機能しない。
しかし、人間はごく少数のサンプルから新しいカテゴリーの特徴を素早く学ぶことができる。
それにもかかわらず、これまでの研究は人間の認知行動を模倣する方法をほとんど考慮せず、少数の学習に適用している。
本稿では,数発学習にゲシュタルト心理学を導入するとともに,ゲシュタルト誘導画像理解法(ggiu)を提案する。
ゲシュタルト心理学における総性原理と閉包の法則を参考に,総性誘導画像理解と閉包誘導画像理解をデザインし,画像特徴を抽出する。
その後、画像の正確な特徴を推定するために特徴推定モジュールが使用される。
大規模な実験により,既存のモデルの性能を再現・微調整することなく効果的かつ柔軟に向上できることを示した。
私たちのコードはhttps://github.com/skingorz/ggiuでリリースしています。
関連論文リスト
- Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Learning an Adaptation Function to Assess Image Visual Similarities [0.0]
ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。
本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。
The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
論文 参考訳(メタデータ) (2022-06-03T07:15:00Z) - LibFewShot: A Comprehensive Library for Few-shot Learning [78.58842209282724]
近年,画像分類に注目が集まり,近年顕著な進歩が見られた。
近年の研究では、データ強化、事前学習、知識蒸留、自己超越といった多くの一般的な手法や技法が、数発の学習法の性能を大幅に向上させる可能性があることが暗黙的に示されている。
そこで本研究では,PyTorchに固有の単一言語を組み込んだ一貫したフレームワークにおいて,17の最先端の複数ショット学習手法を再実装することにより,小ショット学習のための総合ライブラリ(LibFewShot)を提案する。
論文 参考訳(メタデータ) (2021-09-10T14:12:37Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Memory-Efficient Incremental Learning Through Feature Adaptation [71.1449769528535]
本稿では,以前学習したクラスから,画像の特徴記述子を保存するインクリメンタルラーニングのアプローチを提案する。
画像のより低次元の機能埋め込みを維持することで、メモリフットプリントが大幅に削減される。
実験の結果,インクリメンタルラーニングベンチマークにおいて,最先端の分類精度が得られた。
論文 参考訳(メタデータ) (2020-04-01T21:16:05Z) - Deep Image Feature Learning with Fuzzy Rules [25.4399762282053]
本稿では、より解釈可能でスケーラブルな特徴学習手法、すなわち、ファジィルール付き深層画像特徴学習(DIFL-FR)を提案する。
本手法は,ファジィルールに基づいて階層的に画像特徴を段階的に学習するので,生成したルールにより特徴学習プロセスをよりよく説明できる。
また、教師なし学習の設定下にあり、教師なし学習や半教師なし学習の場面に容易に拡張することができる。
論文 参考訳(メタデータ) (2019-05-25T11:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。