論文の概要: Explored An Effective Methodology for Fine-Grained Snake Recognition
- arxiv url: http://arxiv.org/abs/2207.11637v1
- Date: Sun, 24 Jul 2022 02:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:36:07.493344
- Title: Explored An Effective Methodology for Fine-Grained Snake Recognition
- Title(参考訳): 微粒スネーク認識のための有効手法の探索
- Authors: Yong Huang, Aderon Huang, Wei Zhu, Yanming Fang, Jinghua Feng
- Abstract要約: 我々は,様々なメタ情報を活用し,きめ細かい識別を支援するために,強力なマルチモーダルバックボーンを設計する。
ラベルのないデータセットを最大限に活用するために,自己教師付き学習と教師付き学習共同学習を用いる。
本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
- 参考スコア(独自算出の注目度): 8.908667065576632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-Grained Visual Classification (FGVC) is a longstanding and fundamental
problem in computer vision and pattern recognition, and underpins a diverse set
of real-world applications. This paper describes our contribution at
SnakeCLEF2022 with FGVC. Firstly, we design a strong multimodal backbone to
utilize various meta-information to assist in fine-grained identification.
Secondly, we provide new loss functions to solve the long tail distribution
with dataset. Then, in order to take full advantage of unlabeled datasets, we
use self-supervised learning and supervised learning joint training to provide
pre-trained model. Moreover, some effective data process tricks also are
considered in our experiments. Last but not least, fine-tuned in downstream
task with hard mining, ensambled kinds of model performance. Extensive
experiments demonstrate that our method can effectively improve the performance
of fine-grained recognition. Our method can achieve a macro f1 score 92.7% and
89.4% on private and public dataset, respectively, which is the 1st place among
the participators on private leaderboard.
- Abstract(参考訳): Fine-Grained Visual Classification (FGVC) は、コンピュータビジョンとパターン認識における長年の基本的な問題であり、様々な現実世界のアプリケーションを支える。
本稿では,FGVCによるSnakeCLEF2022の貢献について述べる。
まず, 様々なメタ情報を用いて, きめ細かい識別を支援する強力なマルチモーダルバックボーンを設計する。
第二に、データセットで長い尾の分布を解くために、新しい損失関数を提供する。
そして,ラベル付きデータセットを最大限活用するために,自己教師付き学習と教師付き学習合同学習を用いて事前学習モデルを提供する。
さらに, 実験では, 効果的なデータ処理手法も検討されている。
最後に重要なことは、ハードマイニングを伴う下流タスクの微調整と、モデルパフォーマンスのサンプル化です。
大規模な実験により, 粒度認識の性能を効果的に向上できることが示された。
本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
関連論文リスト
- Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Fine-Grained Adversarial Semi-supervised Learning [25.36956660025102]
FGVC(Fen-Grained Visual Categorization)の性能向上のために、SSL(Semi-Supervised Learning)を活用してトレーニングデータの量を増やす。
6つの最先端の細粒度データセットに対して実験を行うことにより、組み合わせた使用の有効性を実証する。
論文 参考訳(メタデータ) (2021-10-12T09:24:22Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - SelfHAR: Improving Human Activity Recognition through Self-training with
Unlabeled Data [9.270269467155547]
SelfHARは、ラベルなしデータセットを利用して小さなラベル付きデータセットを補完する半教師付きモデルである。
提案手法は教師による自己学習と,ラベル付きデータセットとラベル付きデータセットの知識を融合する。
SelfHARはデータ効率が高く、教師付きアプローチの10倍のラベル付きデータを使用して、同様のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-02-11T15:40:35Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。