論文の概要: Improving Image Recognition by Retrieving from Web-Scale Image-Text Data
- arxiv url: http://arxiv.org/abs/2304.05173v1
- Date: Tue, 11 Apr 2023 12:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 15:03:58.754638
- Title: Improving Image Recognition by Retrieving from Web-Scale Image-Text Data
- Title(参考訳): Webスケール画像テキストデータからの検索による画像認識の改善
- Authors: Ahmet Iscen, Alireza Fathi, Cordelia Schmid
- Abstract要約: 本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
- 参考スコア(独自算出の注目度): 68.63453336523318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval augmented models are becoming increasingly popular for computer
vision tasks after their recent success in NLP problems. The goal is to enhance
the recognition capabilities of the model by retrieving similar examples for
the visual input from an external memory set. In this work, we introduce an
attention-based memory module, which learns the importance of each retrieved
example from the memory. Compared to existing approaches, our method removes
the influence of the irrelevant retrieved examples, and retains those that are
beneficial to the input query. We also thoroughly study various ways of
constructing the memory dataset. Our experiments show the benefit of using a
massive-scale memory dataset of 1B image-text pairs, and demonstrate the
performance of different memory representations. We evaluate our method in
three different classification tasks, namely long-tailed recognition, learning
with noisy labels, and fine-grained classification, and show that it achieves
state-of-the-art accuracies in ImageNet-LT, Places-LT and Webvision datasets.
- Abstract(参考訳): nlp問題で最近成功したコンピュータビジョンタスクでは,検索拡張モデルの人気が高まっている。
その目的は、外部メモリセットからの視覚入力の類似の例を検索することで、モデルの認識能力を高めることである。
本稿では,メモリから抽出された各サンプルの重要性を学習する,注意に基づくメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
また、メモリデータセット構築の様々な方法についても徹底的に研究する。
実験では,1b画像テキスト対の大規模メモリデータセットを使用することの利点を示し,異なるメモリ表現の性能を示す。
本手法は,長尾認識,ノイズラベルによる学習,細粒度分類の3つの異なる分類タスクで評価し,imagenet-lt,places-lt,webvisionデータセットにおける最先端の精度を実現することを示す。
関連論文リスト
- Transformer based Multitask Learning for Image Captioning and Object
Detection [13.340784876489927]
本研究は,画像キャプションとオブジェクト検出を結合モデルに組み合わせた,新しいマルチタスク学習フレームワークを提案する。
我々は,2つのタスクを共同で訓練するためのTICOD, Transformer-based Image Captioning, Object Detectionモデルを提案する。
我々のモデルはBERTScoreの3.65%の改善によって、画像キャプション文学のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-03-10T19:31:13Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - Context Enhanced Transformer for Single Image Object Detection [31.52466523847246]
我々は、CETR(Context Enhanced TRansformer)と呼ばれる、単一画像オブジェクト検出のための新しいアプローチを提案する。
時間的情報を効率的に保存するために,データ間でコンテキスト情報を収集するクラスワイドメモリを構築した。
本稿では,現在の画像の関連メモリを選択的に活用するための分類に基づくサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-22T07:40:43Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Saliency Guided Experience Packing for Replay in Continual Learning [6.417011237981518]
本研究では,経験再現のための新しいアプローチを提案し,過去の経験をサリエンシマップから選択する。
新しいタスクを学習している間、我々はこれらのメモリパッチを適切なゼロパディングで再生し、過去の決定をモデルに思い出させる。
論文 参考訳(メタデータ) (2021-09-10T15:54:58Z) - Memory Wrap: a Data-Efficient and Interpretable Extension to Image
Classification Models [9.848884631714451]
Memory Wrapは、任意の画像分類モデルのプラグアンドプレイ拡張である。
データ効率性とモデル解釈性の両方を改善し、コンテンツアテンションメカニズムを採用する。
メモリラップは,限られたデータ集合から学習すると,標準的な分類器よりも優れることを示す。
論文 参考訳(メタデータ) (2021-06-01T07:24:19Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。