Fugu-MT 論文翻訳(概要): Dynamic MLP for Fine-Grained Image Classification by Leveraging Geographical and Temporal Information

論文の概要: Dynamic MLP for Fine-Grained Image Classification by Leveraging Geographical and Temporal Information

arxiv url: http://arxiv.org/abs/2203.03253v1
Date: Mon, 7 Mar 2022 10:21:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-08 17:15:42.822358
Title: Dynamic MLP for Fine-Grained Image Classification by Leveraging Geographical and Temporal Information
Title（参考訳）: 地理情報と時間情報を利用した微細画像分類のための動的MLP
Authors: Lingfeng Yang, Xiang Li, Renjie Song, Borui Zhao, Juntian Tao, Shihao Zhou, Jiajun Liang, Jian Yang
Abstract要約: きめ細かい画像分類は、様々な種が類似した視覚的外観を共有する、難しいコンピュータビジョンタスクである。これは、データ撮影の場所や日付などの追加情報を活用するのに役立つ。本稿では,より高次元のマルチモーダル特徴と相互作用する画像表現の上に動的アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 19.99135128298929
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Fine-grained image classification is a challenging computer vision task where various species share similar visual appearances, resulting in misclassification if merely based on visual clues. Therefore, it is helpful to leverage additional information, e.g., the locations and dates for data shooting, which can be easily accessible but rarely exploited. In this paper, we first demonstrate that existing multimodal methods fuse multiple features only on a single dimension, which essentially has insufficient help in feature discrimination. To fully explore the potential of multimodal information, we propose a dynamic MLP on top of the image representation, which interacts with multimodal features at a higher and broader dimension. The dynamic MLP is an efficient structure parameterized by the learned embeddings of variable locations and dates. It can be regarded as an adaptive nonlinear projection for generating more discriminative image representations in visual tasks. To our best knowledge, it is the first attempt to explore the idea of dynamic networks to exploit multimodal information in fine-grained image classification tasks. Extensive experiments demonstrate the effectiveness of our method. The t-SNE algorithm visually indicates that our technique improves the recognizability of image representations that are visually similar but with different categories. Furthermore, among published works across multiple fine-grained datasets, dynamic MLP consistently achieves SOTA results https://paperswithcode.com/dataset/inaturalist and takes third place in the iNaturalist challenge at FGVC8 https://www.kaggle.com/c/inaturalist-2021/leaderboard. Code is available at https://github.com/ylingfeng/DynamicMLP.git
Abstract（参考訳）: きめ細かい画像分類は、様々な種が類似した視覚的外観を共有し、視覚的手がかりのみに基づいて誤分類される、難しいコンピュータビジョンタスクである。したがって、データ撮影の場所や日付などの追加情報を活用することは、容易にアクセスすることができるが、まれに悪用されることはない。本稿では,既存のマルチモーダル手法が単一次元のみに複数の特徴を融合させることを最初に実証する。マルチモーダル情報の可能性を十分に探究するために,画像表現の上に動的mlpを提案し,高次元および広い次元でマルチモーダル特徴と相互作用する。動的MLPは、可変位置と日付の学習された埋め込みによってパラメータ化される効率的な構造である。視覚タスクにおいてより識別的な画像表現を生成するための適応非線形投影と見なすことができる。最善の知識を得るためには、きめ細かな画像分類タスクでマルチモーダル情報を利用する動的ネットワークのアイデアを探求する最初の試みである。広範な実験により本手法の有効性が実証された。 t-sneアルゴリズムは,視覚的に類似するがカテゴリが異なる画像表現の認識性が向上することを示す。さらに、複数のきめ細かいデータセットにまたがる出版作品の中で、動的MLPは一貫してSOTA結果 https://paperswithcode.com/dataset/inaturalist を達成し、FGVC8 https://www.kaggle.com/c/inaturalist-2021/ LeaderboardでiNaturalistチャレンジで3位にランクインしている。コードはhttps://github.com/ylingfeng/DynamicMLP.gitで入手できる。

関連論文リスト

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models [11.683093317651517]
大規模言語モデル(LLM)は、画像分類を含む多くのコンピュータビジョンタスクに効果的に使用されている。マルチモーダルLCMを用いたゼロショット画像分類法を提案する。この結果は,複数のデータセットのベンチマーク精度を上回り,その顕著な効果を示した。
論文参考訳（メタデータ） (2024-05-24T16:05:15Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)
Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文参考訳（メタデータ） (2023-09-01T11:15:50Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文参考訳（メタデータ） (2022-07-10T07:36:36Z)
Facing the Void: Overcoming Missing Data in Multi-View Imagery [0.783788180051711]
本稿では,この問題に頑健な多視点画像分類のための新しい手法を提案する。提案手法は,最先端の深層学習とメートル法学習に基づいて,他のアプリケーションやドメインに容易に適応し,活用することができる。その結果,提案アルゴリズムは,最先端手法と比較して,多視点画像分類精度の向上を図っている。
論文参考訳（メタデータ） (2022-05-21T13:21:27Z)
Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文参考訳（メタデータ） (2022-01-15T19:49:00Z)
An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文参考訳（メタデータ） (2021-11-24T06:25:49Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。