Fugu-MT 論文翻訳(概要): Improving Image Recognition by Retrieving from Web-Scale Image-Text Data

論文の概要: Improving Image Recognition by Retrieving from Web-Scale Image-Text Data

arxiv url: http://arxiv.org/abs/2304.05173v1
Date: Tue, 11 Apr 2023 12:12:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 15:03:58.754638
Title: Improving Image Recognition by Retrieving from Web-Scale Image-Text Data
Title（参考訳）: Webスケール画像テキストデータからの検索による画像認識の改善
Authors: Ahmet Iscen, Alireza Fathi, Cordelia Schmid
Abstract要約: 本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
参考スコア（独自算出の注目度）: 68.63453336523318
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval augmented models are becoming increasingly popular for computer vision tasks after their recent success in NLP problems. The goal is to enhance the recognition capabilities of the model by retrieving similar examples for the visual input from an external memory set. In this work, we introduce an attention-based memory module, which learns the importance of each retrieved example from the memory. Compared to existing approaches, our method removes the influence of the irrelevant retrieved examples, and retains those that are beneficial to the input query. We also thoroughly study various ways of constructing the memory dataset. Our experiments show the benefit of using a massive-scale memory dataset of 1B image-text pairs, and demonstrate the performance of different memory representations. We evaluate our method in three different classification tasks, namely long-tailed recognition, learning with noisy labels, and fine-grained classification, and show that it achieves state-of-the-art accuracies in ImageNet-LT, Places-LT and Webvision datasets.
Abstract（参考訳）: nlp問題で最近成功したコンピュータビジョンタスクでは,検索拡張モデルの人気が高まっている。その目的は、外部メモリセットからの視覚入力の類似の例を検索することで、モデルの認識能力を高めることである。本稿では,メモリから抽出された各サンプルの重要性を学習する,注意に基づくメモリモジュールを提案する。既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。また、メモリデータセット構築の様々な方法についても徹底的に研究する。実験では,1b画像テキスト対の大規模メモリデータセットを使用することの利点を示し,異なるメモリ表現の性能を示す。本手法は,長尾認識,ノイズラベルによる学習,細粒度分類の3つの異なる分類タスクで評価し,imagenet-lt,places-lt,webvisionデータセットにおける最先端の精度を実現することを示す。

関連論文リスト

Memory-Modular Classification: Learning to Generalize with Memory Replacement [79.772454831493]
本稿では,知識記憶と推論を分離した画像分類のためのメモリモジュール学習手法を提案する。我々のモデルは、メモリ内容を置き換えるだけで、新しいクラスを効果的に一般化することができる。実験の結果,提案手法の有望な性能と汎用性を示した。
論文参考訳（メタデータ） (2025-04-08T13:26:24Z)
Learning from Memory: Non-Parametric Memory Augmented Self-Supervised Learning of Visual Features [6.096888891865663]
提案手法では,ニューラルネットワークをメモリコンポーネントに拡張して,現在のイメージビューとこれまで遭遇した概念を比較する。我々は, 線形, 転送学習, ローショット分類, 画像検索など, 多数の視覚課題に対して, 提案手法をベンチマークする。実験結果は,新たな正規化子を使わずに安定したSSLトレーニングを実現するための提案手法の有効性を固めるものである。
論文参考訳（メタデータ） (2024-07-03T06:46:08Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Transformer based Multitask Learning for Image Captioning and Object Detection [13.340784876489927]
本研究は,画像キャプションとオブジェクト検出を結合モデルに組み合わせた,新しいマルチタスク学習フレームワークを提案する。我々は,2つのタスクを共同で訓練するためのTICOD, Transformer-based Image Captioning, Object Detectionモデルを提案する。我々のモデルはBERTScoreの3.65%の改善によって、画像キャプション文学のベースラインを上回ります。
論文参考訳（メタデータ） (2024-03-10T19:31:13Z)
Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。 MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文参考訳（メタデータ） (2024-02-16T16:31:46Z)
Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。 COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文参考訳（メタデータ） (2022-07-26T19:35:49Z)
Saliency Guided Experience Packing for Replay in Continual Learning [6.417011237981518]
本研究では,経験再現のための新しいアプローチを提案し,過去の経験をサリエンシマップから選択する。新しいタスクを学習している間、我々はこれらのメモリパッチを適切なゼロパディングで再生し、過去の決定をモデルに思い出させる。
論文参考訳（メタデータ） (2021-09-10T15:54:58Z)
Memory Wrap: a Data-Efficient and Interpretable Extension to Image Classification Models [9.848884631714451]
Memory Wrapは、任意の画像分類モデルのプラグアンドプレイ拡張である。データ効率性とモデル解釈性の両方を改善し、コンテンツアテンションメカニズムを採用する。メモリラップは,限られたデータ集合から学習すると,標準的な分類器よりも優れることを示す。
論文参考訳（メタデータ） (2021-06-01T07:24:19Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文参考訳（メタデータ） (2020-04-14T16:29:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。