Fugu-MT 論文翻訳(概要): Locality-Aware Hyperspectral Classification

論文の概要: Locality-Aware Hyperspectral Classification

arxiv url: http://arxiv.org/abs/2309.01561v1
Date: Mon, 4 Sep 2023 12:29:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 18:41:22.065752
Title: Locality-Aware Hyperspectral Classification
Title（参考訳）: 局所性を考慮したハイパースペクトル分類
Authors: Fangqin Zhou, Mert Kilickaya, Joaquin Vanschoren
Abstract要約: 本稿では,局所情報とスペクトル情報の両方をモデル化した視覚変換器であるHyperspectral Locality-aware Image TransformEr(HyLITE)を紹介する。提案手法は, 競合するベースラインを高いマージンで上回り, 最大10%の精度向上を実現している。
参考スコア（独自算出の注目度）: 8.737375836744933
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Hyperspectral image classification is gaining popularity for high-precision vision tasks in remote sensing, thanks to their ability to capture visual information available in a wide continuum of spectra. Researchers have been working on automating Hyperspectral image classification, with recent efforts leveraging Vision-Transformers. However, most research models only spectra information and lacks attention to the locality (i.e., neighboring pixels), which may be not sufficiently discriminative, resulting in performance limitations. To address this, we present three contributions: i) We introduce the Hyperspectral Locality-aware Image TransformEr (HyLITE), a vision transformer that models both local and spectral information, ii) A novel regularization function that promotes the integration of local-to-global information, and iii) Our proposed approach outperforms competing baselines by a significant margin, achieving up to 10% gains in accuracy. The trained models and the code are available at HyLITE.
Abstract（参考訳）: 超スペクトル画像分類は、広範囲のスペクトルで利用可能な視覚情報をキャプチャする能力のおかげで、リモートセンシングにおける高精度な視覚タスクで人気が高まっている。ハイパースペクトル画像分類の自動化に研究者が取り組んでおり、ビジョン・トランスフォーマーを活用している。しかし、ほとんどの研究モデルでは、スペクトル情報のみを扱っており、局所性(すなわち隣接するピクセル)に注意が払われていない。これに対処するために、私たちは3つの貢献をします。 i) 局所情報とスペクトル情報の両方をモデル化する視覚トランスであるハイライト(hyperspectral locality-aware image transformer)について紹介する。二地域・地域情報の統合を促進する新たな正規化機能及び三提案手法は、競合ベースラインをかなりのマージンで上回り、精度を最大10%向上させる。トレーニングされたモデルとコードはHyLITEで利用可能だ。

関連論文リスト

Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models [18.24287471339871]
ハイパースペクトルイメージング(HSI)は、多数の狭い波長帯にわたる密度のスペクトル測定とともに空間情報をキャプチャする。本アーキテクチャでは、スペクトル変換器とスペクトル対応空間先行モジュールを組み込んで、豊富な空間スペクトル特徴を抽出する。我々のアーキテクチャは、HSI入力を直接使用しながら、最先端のセマンティックセマンティックセマンティックセマンティクス性能を実現し、ビジョンベースとハイパースペクトルセマンティクスの両方のセマンティクス法より優れている。
論文参考訳（メタデータ） (2025-09-24T13:32:07Z)
LoLA-SpecViT: Local Attention SwiGLU Vision Transformer with LoRA for Hyperspectral Imaging [6.360399841791849]
軽量なスペクトルビジョン変換器であるtextbfLoLA-SpecViT (Low-rank adaptation Local Attention Spectral Vision Transformer) を提案する。提案モデルでは,3次元畳み込みスペクトルフロントエンドと局所窓ベースの自己アテンションを組み合わせ,スペクトル特徴抽出と空間一貫性の両立を図る。我々のフレームワークは、農業、環境モニタリング、リモートセンシング分析における実世界のHSIアプリケーションに対して、スケーラブルで一般化可能なソリューションを提供する。
論文参考訳（メタデータ） (2025-06-21T16:46:00Z)
Hyperspectral Image Classification via Transformer-based Spectral-Spatial Attention Decoupling and Adaptive Gating [12.168520751389622]
ディープニューラルネットワークは、ハイパースペクトル画像分類においていくつかの課題に直面している。本稿ではSTNetと呼ばれる新しいネットワークアーキテクチャを提案する。提案手法は、IN, UP, KSCデータセット上での優れた性能を示し、主流のハイパースペクトル画像分類手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2025-06-10T01:24:35Z)
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-27T17:59:26Z)
CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis [75.25966323298003]
スペクトルイメージングは、医療や都市景観の理解など、様々な領域で有望な応用を提供する。スペクトルカメラのチャネル次元と捕獲波長のばらつきは、AI駆動方式の開発を妨げる。我々は、$textbfC$amera-$textbfA$gnostic $textbfR$esupervised $textbfL$のモデルである$textbfCARL$を紹介した。
論文参考訳（メタデータ） (2025-04-27T13:06:40Z)
Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。 textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文参考訳（メタデータ） (2025-04-16T09:57:23Z)
Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。 Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。 SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文参考訳（メタデータ） (2025-01-24T06:42:06Z)
DiffFormer: a Differential Spatial-Spectral Transformer for Hyperspectral Image Classification [3.271106943956333]
超スペクトル画像分類(HSIC)は、高次元データをスペクトル情報と空間情報で分析する可能性から注目されている。本稿では、スペクトル冗長性や空間不連続性といったHSICの固有の課題に対処するために、差分空間スペクトル変換器(DiffFormer)を提案する。ベンチマークハイパースペクトルデータセットの実験は、分類精度、計算効率、一般化可能性の観点から、DiffFormerの優位性を示す。
論文参考訳（メタデータ） (2024-12-23T07:21:41Z)
Vision Eagle Attention: A New Lens for Advancing Image Classification [0.8158530638728501]
コンボリューショナルな空間的注意力を用いた視覚的特徴抽出を促進する新しい注意機構であるビジョンイーグル注意(Vision Eagle Attention)を導入する。このモデルは、局所的な空間的特徴を捉えるために畳み込みを適用し、画像の最も情報性の高い領域を選択的に強調するアテンションマップを生成する。 Vision Eagle Attentionを軽量なResNet-18アーキテクチャに統合しました。
論文参考訳（メタデータ） (2024-11-15T20:21:59Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文参考訳（メタデータ） (2024-05-08T03:13:20Z)
Transformers Fusion across Disjoint Samples for Hyperspectral Image Classification [2.1223532600703385]
3Dスウィントランス(3D-ST)は、画像内の複雑な空間的関係を捉えるのに優れる。 SSTは、自己アテンション機構による長距離依存関係のモデリングを専門とする。本稿では、ハイパースペクトル画像(HSI)の分類性能を大幅に向上させるために、これらの2つの変換器の注意融合を導入する。
論文参考訳（メタデータ） (2024-05-02T08:49:01Z)
3D-Convolution Guided Spectral-Spatial Transformer for Hyperspectral Image Classification [12.729885732069926]
視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)よりも有望な分類性能を示した ViTはシーケンシャルなデータを出力するが、CNNのようなスペクトル空間情報を抽出することはできない。 HSI分類のための3次元畳み込み誘導スペクトル空間変換器(3D-ConvSST)を提案する。
論文参考訳（メタデータ） (2024-04-20T03:39:54Z)
SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文参考訳（メタデータ） (2023-11-13T07:09:30Z)
DiffSpectralNet : Unveiling the Potential of Diffusion Models for Hyperspectral Image Classification [6.521187080027966]
我々は拡散と変圧器技術を組み合わせたDiffSpectralNetと呼ばれる新しいネットワークを提案する。まず,拡散モデルに基づく教師なし学習フレームワークを用いて,高レベル・低レベルのスペクトル空間的特徴を抽出する。この拡散法はスペクトル空間の特徴を多様かつ有意義に抽出し,HSI分類の改善につながる。
論文参考訳（メタデータ） (2023-10-29T15:26:37Z)
DCN-T: Dual Context Network with Transformer for Hyperspectral Image Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。提案手法は,HSI分類における最先端手法よりも優れている。
論文参考訳（メタデータ） (2023-04-19T18:32:52Z)
Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。 CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2021-06-19T23:57:31Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Spatial-Spectral Residual Network for Hyperspectral Image Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文参考訳（メタデータ） (2020-01-14T03:34:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。