論文の概要: Improving Image Recognition by Retrieving from Web-Scale Image-Text Data
- arxiv url: http://arxiv.org/abs/2304.05173v1
- Date: Tue, 11 Apr 2023 12:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 15:03:58.754638
- Title: Improving Image Recognition by Retrieving from Web-Scale Image-Text Data
- Title(参考訳): Webスケール画像テキストデータからの検索による画像認識の改善
- Authors: Ahmet Iscen, Alireza Fathi, Cordelia Schmid
- Abstract要約: 本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
- 参考スコア(独自算出の注目度): 68.63453336523318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval augmented models are becoming increasingly popular for computer
vision tasks after their recent success in NLP problems. The goal is to enhance
the recognition capabilities of the model by retrieving similar examples for
the visual input from an external memory set. In this work, we introduce an
attention-based memory module, which learns the importance of each retrieved
example from the memory. Compared to existing approaches, our method removes
the influence of the irrelevant retrieved examples, and retains those that are
beneficial to the input query. We also thoroughly study various ways of
constructing the memory dataset. Our experiments show the benefit of using a
massive-scale memory dataset of 1B image-text pairs, and demonstrate the
performance of different memory representations. We evaluate our method in
three different classification tasks, namely long-tailed recognition, learning
with noisy labels, and fine-grained classification, and show that it achieves
state-of-the-art accuracies in ImageNet-LT, Places-LT and Webvision datasets.
- Abstract(参考訳): nlp問題で最近成功したコンピュータビジョンタスクでは,検索拡張モデルの人気が高まっている。
その目的は、外部メモリセットからの視覚入力の類似の例を検索することで、モデルの認識能力を高めることである。
本稿では,メモリから抽出された各サンプルの重要性を学習する,注意に基づくメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
また、メモリデータセット構築の様々な方法についても徹底的に研究する。
実験では,1b画像テキスト対の大規模メモリデータセットを使用することの利点を示し,異なるメモリ表現の性能を示す。
本手法は,長尾認識,ノイズラベルによる学習,細粒度分類の3つの異なる分類タスクで評価し,imagenet-lt,places-lt,webvisionデータセットにおける最先端の精度を実現することを示す。
関連論文リスト
- Learning from Memory: Non-Parametric Memory Augmented Self-Supervised Learning of Visual Features [6.096888891865663]
提案手法では,ニューラルネットワークをメモリコンポーネントに拡張して,現在のイメージビューとこれまで遭遇した概念を比較する。
我々は, 線形, 転送学習, ローショット分類, 画像検索など, 多数の視覚課題に対して, 提案手法をベンチマークする。
実験結果は,新たな正規化子を使わずに安定したSSLトレーニングを実現するための提案手法の有効性を固めるものである。
論文 参考訳(メタデータ) (2024-07-03T06:46:08Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Transformer based Multitask Learning for Image Captioning and Object
Detection [13.340784876489927]
本研究は,画像キャプションとオブジェクト検出を結合モデルに組み合わせた,新しいマルチタスク学習フレームワークを提案する。
我々は,2つのタスクを共同で訓練するためのTICOD, Transformer-based Image Captioning, Object Detectionモデルを提案する。
我々のモデルはBERTScoreの3.65%の改善によって、画像キャプション文学のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-03-10T19:31:13Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Saliency Guided Experience Packing for Replay in Continual Learning [6.417011237981518]
本研究では,経験再現のための新しいアプローチを提案し,過去の経験をサリエンシマップから選択する。
新しいタスクを学習している間、我々はこれらのメモリパッチを適切なゼロパディングで再生し、過去の決定をモデルに思い出させる。
論文 参考訳(メタデータ) (2021-09-10T15:54:58Z) - Memory Wrap: a Data-Efficient and Interpretable Extension to Image
Classification Models [9.848884631714451]
Memory Wrapは、任意の画像分類モデルのプラグアンドプレイ拡張である。
データ効率性とモデル解釈性の両方を改善し、コンテンツアテンションメカニズムを採用する。
メモリラップは,限られたデータ集合から学習すると,標準的な分類器よりも優れることを示す。
論文 参考訳(メタデータ) (2021-06-01T07:24:19Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。