論文の概要: Contrastive ground-level image and remote sensing pre-training improves representation learning for natural world imagery
- arxiv url: http://arxiv.org/abs/2409.19439v1
- Date: Sat, 28 Sep 2024 19:07:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:19:24.913861
- Title: Contrastive ground-level image and remote sensing pre-training improves representation learning for natural world imagery
- Title(参考訳): コントラスト画像とリモートセンシング事前学習による自然界画像の表現学習の改善
- Authors: Andy V. Huynh, Lauren E. Gillespie, Jael Lopez-Saucedo, Claire Tang, Rohan Sikand, Moisés Expósito-Alonso,
- Abstract要約: 本稿では、コントラスト学習による画像データのビューをどのように活用するかを示す。
例えば、画像データの複数のビューを組み合わせることで、種の分類を改善する方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal image-text contrastive learning has shown that joint representations can be learned across modalities. Here, we show how leveraging multiple views of image data with contrastive learning can improve downstream fine-grained classification performance for species recognition, even when one view is absent. We propose ContRastive Image-remote Sensing Pre-training (CRISP)$\unicode{x2014}$a new pre-training task for ground-level and aerial image representation learning of the natural world$\unicode{x2014}$and introduce Nature Multi-View (NMV), a dataset of natural world imagery including $>3$ million ground-level and aerial image pairs for over 6,000 plant taxa across the ecologically diverse state of California. The NMV dataset and accompanying material are available at hf.co/datasets/andyvhuynh/NatureMultiView.
- Abstract(参考訳): マルチモーダル画像テキストのコントラスト学習は、共同表現がモダリティを越えて学習できることを示してきた。
本稿では, 画像データの複数のビューを対照的な学習で活用することで, 一つのビューが欠落している場合でも, 下流の詳細な分類性能を向上できることを示す。
ContRastive Image-remote Sensing Pre-training (CRISP)$\unicode{x2014}$a new pre-training task for ground-level and air image representation learning of the natural world$\unicode{x2014}$and introduce Nature Multi-View (NMV)。
NMVデータセットと関連する資料はhf.co/datasets/andyvhuynh/NatureMultiViewで入手できる。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Classifying geospatial objects from multiview aerial imagery using semantic meshes [2.116528763953217]
米国における森林の航空画像に基づく樹木種予測手法を提案する。
提案手法は, 木分類に難渋する課題に対して, 53%から75%に分類精度を向上することを示す。
論文 参考訳(メタデータ) (2024-05-15T17:56:49Z) - ViLLA: Fine-Grained Vision-Language Representation Learning from
Real-World Data [8.905439446173503]
視覚言語モデル(VLM)は一般的に、Webから取得した画像キャプチャペアからなるデータセットに基づいて訓練される。
医療データなどの実世界のマルチモーダルデータセットは、はるかに複雑です。
ViLLAは、複雑なデータセットからきめ細かい領域属性関係をキャプチャするために訓練されている。
論文 参考訳(メタデータ) (2023-08-22T05:03:09Z) - Toward Real-world Single Image Deraining: A New Benchmark and Beyond [79.5893880599847]
現実シナリオにおけるSID(Single Image deraining)は近年注目されている。
以前の実際のデータセットは、低解像度の画像、均一な雨のストリーク、背景の変化の制限、イメージペアの誤調整に悩まされていた。
我々はRealRain-1kという新しい高品質のデータセットを構築した。
論文 参考訳(メタデータ) (2022-06-11T12:26:59Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Focus on the Positives: Self-Supervised Learning for Biodiversity
Monitoring [9.086207853136054]
ラベルのない画像コレクションから自己教師付き表現を学習する問題に対処する。
我々は,入力画像間の空間的関係や時間的関係などの情報を符号化する,手軽に利用可能なコンテキストデータを利用する。
地球生物多様性監視の重要課題として、人間の監督が限定された視覚的種分類タスクに適応可能な画像特徴があげられる。
論文 参考訳(メタデータ) (2021-08-14T01:12:41Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Benchmarking Representation Learning for Natural World Image Collections [13.918304838054846]
iNat2021とNeWTの2つの新しい自然界視覚分類データセットを紹介します。
前者は市民科学アプリケーションinaturalistのユーザによってアップロードされた10k種の2.7m画像である。
標準種別を超越した難解な自然世界バイナリ分類タスク群において,表現学習アルゴリズムの性能ベンチマークを行った。
我々は,imagenet と inat2021 を監督することなく訓練された特徴抽出器の総合的な解析を行い,様々なタスクを通して異なる学習特徴の長所と短所について考察した。
論文 参考訳(メタデータ) (2021-03-30T16:41:49Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - AiRound and CV-BrCT: Novel Multi-View Datasets for Scene Classification [2.931113769364182]
本稿では,thedatasetand CV-BrCTという2つの新しいデータセットを提案する。
1つ目は、世界中の様々な場所から抽出された視点の異なる、同じ地理的座標からの3つの画像を含む。
第2のデータセットには、ブラジル南東部から抽出された空中画像とストリートレベルの画像が含まれている。
論文 参考訳(メタデータ) (2020-08-03T18:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。