論文の概要: Tighnari: Multi-modal Plant Species Prediction Based on Hierarchical Cross-Attention Using Graph-Based and Vision Backbone-Extracted Features
- arxiv url: http://arxiv.org/abs/2501.02649v1
- Date: Sun, 05 Jan 2025 20:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:56.416723
- Title: Tighnari: Multi-modal Plant Species Prediction Based on Hierarchical Cross-Attention Using Graph-Based and Vision Backbone-Extracted Features
- Title(参考訳): Tighnari: グラフベースおよび視覚バックボーン抽出特徴を用いた階層的クロスアテンションに基づくマルチモーダル植物種予測
- Authors: Haixu Liu, Penghao Jiang, Zerui Tao, Muyan Wan, Qiuzhuang Sun,
- Abstract要約: ヨーロッパにおける植物調査4,716件の結果を予測するモデルを構築した。
本研究では,Swin-Transformer Blockのバックボーンに基づくネットワークを構築し,時間的キューブの特徴を抽出する。
次に,複数のモダリティから特徴を融合できる階層的クロスアテンション機構を設計する。
- 参考スコア(独自算出の注目度): 1.5495593104596397
- License:
- Abstract: Predicting plant species composition in specific spatiotemporal contexts plays an important role in biodiversity management and conservation, as well as in improving species identification tools. Our work utilizes 88,987 plant survey records conducted in specific spatiotemporal contexts across Europe. We also use the corresponding satellite images, time series data, climate time series, and other rasterized environmental data such as land cover, human footprint, bioclimatic, and soil variables as training data to train the model to predict the outcomes of 4,716 plant surveys. We propose a feature construction and result correction method based on the graph structure. Through comparative experiments, we select the best-performing backbone networks for feature extraction in both temporal and image modalities. In this process, we built a backbone network based on the Swin-Transformer Block for extracting temporal Cubes features. We then design a hierarchical cross-attention mechanism capable of robustly fusing features from multiple modalities. During training, we adopt a 10-fold cross-fusion method based on fine-tuning and use a Threshold Top-K method for post-processing. Ablation experiments demonstrate the improvements in model performance brought by our proposed solution pipeline.
- Abstract(参考訳): 特定の時空間における植物種組成の予測は、生物多様性の管理と保全、および種識別ツールの改善において重要な役割を果たす。
本研究は,ヨーロッパ各地の特定の時空間で実施された88,987件の植物調査記録を利用している。
また, 衛星画像, 時系列データ, 気候時系列データ, および土地被覆, 人足跡, 生物気候, 土壌変数などのラスタ化環境データをトレーニングデータとして用いて, 植物調査4,716件の結果を予測する。
グラフ構造に基づく特徴構造と結果の補正手法を提案する。
比較実験により,時間的・画像的モダリティの両面で特徴抽出に最適なバックボーンネットワークを選択する。
そこで我々は,Swin-Transformer Blockをベースとして,時間的キューブの特徴を抽出するバックボーンネットワークを構築した。
次に,複数のモダリティから頑健に特徴を融合できる階層的クロスアテンション機構を設計する。
トレーニング中、微調整に基づく10倍のクロスフュージョン法を採用し、後処理にThreshold Top-K法を用いる。
アブレーション実験は、提案したソリューションパイプラインによってもたらされたモデル性能の改善を実証する。
関連論文リスト
- Lincoln's Annotated Spatio-Temporal Strawberry Dataset (LAST-Straw) [7.13465721388535]
そこで本研究では,イチゴの3次元点群を2種類に分類し,84個の点群を集計した。
我々は、データセット上で表現型パイプラインを示すために、このようなツール(生物学的に関連のある表現型の抽出)のエンドユースに焦点を当てる。
これは、セグメンテーション、骨格化、追跡を含むステップで構成され、各ステージがどのように異なる表現型の抽出やデータインサイトの提供を促進するかを詳述する。
論文 参考訳(メタデータ) (2024-03-01T14:44:05Z) - Improving Data Efficiency for Plant Cover Prediction with Label
Interpolation and Monte-Carlo Cropping [7.993547048820065]
植物群落の組成は環境変化の重要な指標であり、通常生態学的研究で分析される。
本稿では,収集した植生計画時系列のスパースラベルを中間密度・未ラベル画像に補間する手法を提案する。
また,高解像度画像の処理を効率的に行うため,モンテカルロ・クロッピングと呼ばれる新しい手法を導入する。
論文 参考訳(メタデータ) (2023-07-17T15:17:39Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Multi-modal learning for geospatial vegetation forecasting [1.8180482634934092]
我々は,高分解能植生予測に特化して設計された最初のデータセットであるGreenEarthNetを紹介する。
また、Sentinel 2衛星画像から植生の緑度を予測するための新しい深層学習手法であるContextformerを提案する。
我々の知る限り、この研究は、季節的サイクルを超えた異常を捉えることができる微細な解像度で大陸規模の植生モデリングのための最初のモデルを示す。
論文 参考訳(メタデータ) (2023-03-28T17:59:05Z) - Importance attribution in neural networks by means of persistence
landscapes of time series [0.5156484100374058]
分類タスクにおいて最も関連性の高いランドスケープレベルを識別できるネットワークアーキテクチャにゲーティング層を含める。
我々は、分類決定に関する洞察を与える時系列の近似形状を再構成する。
論文 参考訳(メタデータ) (2023-02-06T21:43:39Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - An Effective Leaf Recognition Using Convolutional Neural Networks Based
Features [1.137457877869062]
本稿では,葉の認識に有効な手法を提案する。
葉はいくつかの前処理を経て、精製された色画像、静脈像、xy投影ヒストグラム、手作りの形状、テクスチャの特徴、フーリエディスクリプタを抽出する。
これらの属性は、サポートベクターマシン(SVM)モデルを使用して異なる葉を分類する前に、ニューラルネットワークベースのエンコーダによってより良い表現に変換される。
論文 参考訳(メタデータ) (2021-08-04T02:02:22Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。