論文の概要: Improving Few-Shot Image Classification Using Machine- and
User-Generated Natural Language Descriptions
- arxiv url: http://arxiv.org/abs/2207.03133v1
- Date: Thu, 7 Jul 2022 07:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 12:52:54.628631
- Title: Improving Few-Shot Image Classification Using Machine- and
User-Generated Natural Language Descriptions
- Title(参考訳): 機械およびユーザ生成自然言語記述を用いたマイナショット画像分類の改善
- Authors: Kosuke Nishida, Kyosuke Nishida, Shuichi Nishioka
- Abstract要約: 人間は言語記述から新しい視覚概念の知識を得ることができる。
提案するモデルであるLIDEは、記述を生成するテキストデコーダと、マシンまたはユーザ生成記述のテキスト表現を取得するテキストエンコーダを備えている。
- 参考スコア(独自算出の注目度): 10.187432367590201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can obtain the knowledge of novel visual concepts from language
descriptions, and we thus use the few-shot image classification task to
investigate whether a machine learning model can have this capability. Our
proposed model, LIDE (Learning from Image and DEscription), has a text decoder
to generate the descriptions and a text encoder to obtain the text
representations of machine- or user-generated descriptions. We confirmed that
LIDE with machine-generated descriptions outperformed baseline models.
Moreover, the performance was improved further with high-quality user-generated
descriptions. The generated descriptions can be viewed as the explanations of
the model's predictions, and we observed that such explanations were consistent
with prediction results. We also investigated why the language description
improved the few-shot image classification performance by comparing the image
representations and the text representations in the feature spaces.
- Abstract(参考訳): 人間は言語記述から斬新な視覚概念の知識を得ることができ、それゆえ、マイノリティ画像分類タスクを用いて、機械学習モデルにこの能力があるかどうかを検証できる。
提案モデルであるlide (learning from image and description) は,記述を生成するためのテキストデコーダと,マシン記述やユーザ記述のテキスト表現を取得するテキストエンコーダを備えている。
機械記述によるLIDEがベースラインモデルより優れていることを確認した。
さらに,高品質なユーザ生成記述により,さらに性能が向上した。
生成した説明はモデル予測の説明と見なすことができ,その説明は予測結果と一致していることがわかった。
また,特徴空間における画像表現とテキスト表現を比較することで,画像分類性能が向上した理由についても検討した。
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions [30.08331098481379]
我々は、画像テクスチャライゼーション(IT)と呼ばれる革新的なフレームワークを提案する。
ITは、既存のマルチモーダル大言語モデル(MLLM)と複数のビジョンエキスパートモデルを活用することで、高品質な画像記述を自動的に生成する。
LLaVA-7Bは、IT処理による記述のトレーニングの恩恵を受け、よりリッチな画像記述を生成する能力の向上を図っている。
論文 参考訳(メタデータ) (2024-06-11T17:37:45Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Image Captioners Sometimes Tell More Than Images They See [8.640488282016351]
画像キャプション、つまり、"image-to-text"は、与えられた画像から記述テキストを生成する。
我々は、記述テキストのみからの画像の分類を含む実験を行った。
災害画像分類タスクであるCrisisNLPについて,いくつかの画像キャプションモデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-04T15:32:41Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。