論文の概要: Domain-Robust Marine Plastic Detection Using Vision Models
- arxiv url: http://arxiv.org/abs/2510.03294v1
- Date: Mon, 29 Sep 2025 17:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.725749
- Title: Domain-Robust Marine Plastic Detection Using Vision Models
- Title(参考訳): 視覚モデルを用いたドメイン・ロバスト海洋プラスチック検出
- Authors: Saanvi Kataria,
- Abstract要約: 本研究では、ドメイン間の堅牢性、畳み込みニューラルネットワークのトレーニング、ビジョントランスフォーマーのモデルをベンチマークする。
CLIP ViT-L14とGoogleのGemini 2.0 Flashの2つのゼロショットモデルが評価された。
結果は、軽量のMobileNetV2が、より大きなモデルを上回る最強のクロスドメインパフォーマンス(F1 0.97)を提供することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Marine plastic pollution is a pressing environmental threat, making reliable automation for underwater debris detection essential. However, vision systems trained on one dataset often degrade on new imagery due to domain shift. This study benchmarks models for cross-domain robustness, training convolutional neural networks - CNNs (MobileNetV2, ResNet-18, EfficientNet-B0) and vision transformers (DeiT-Tiny, ViT-B16) on a labeled underwater dataset and then evaluates them on a balanced cross-domain test set built from plastic-positive images drawn from a different source and negatives from the training domain. Two zero-shot models were assessed, CLIP ViT-L14 and Google's Gemini 2.0 Flash, that leverage pretraining to classify images without fine-tuning. Results show the lightweight MobileNetV2 delivers the strongest cross-domain performance (F1 0.97), surpassing larger models. All fine-tuned models achieved high Precision (around 99%), but differ in Recall, indicating varying sensitivity to plastic instances. Zero-shot CLIP is comparatively sensitive (Recall around 80%) yet prone to false positives (Precision around 56%), whereas Gemini exhibits the inverse profile (Precision around 99%, Recall around 81%). Error analysis highlights recurring confusions with coral textures, suspended particulates, and specular glare. Overall, compact CNNs with supervised training can generalize effectively for cross-domain underwater detection, while large pretrained vision-language models provide complementary strengths.
- Abstract(参考訳): 海洋のプラスチック汚染は環境の脅威であり、水中の破片検出の信頼性の高い自動化が不可欠である。
しかし、あるデータセットでトレーニングされた視覚システムは、ドメインシフトによって新しいイメージで劣化することが多い。
本研究は、水中のラベル付きデータセット上にCNN(MobileNetV2, ResNet-18, EfficientNet-B0)とビジョントランスフォーマー(DeiT-Tiny, ViT-B16)をベンチマークし、異なるソースから描画されたプラスチック陽性画像とトレーニングドメインからの負の画像から構築されたバランスの取れたクロスドメインテストセットで評価する。
CLIP ViT-L14とGoogleのGemini 2.0 Flashの2つのゼロショットモデルが評価された。
結果は、軽量のMobileNetV2が、より大きなモデルを上回る最強のクロスドメインパフォーマンス(F1 0.97)を提供することを示している。
すべての微調整されたモデルは高精度(約99%)を達成したが、リコールには違いがあり、プラスチックのインスタンスに対する感度は様々であった。
ゼロショットCLIPは比較的敏感(80%のリコール)であるが、偽陽性(56%の精度)であるのに対し、ジェミニは逆プロファイル(99%の精度、約81%のリコール)を示す。
エラー解析は、サンゴのテクスチャ、懸濁した粒子状体、および特異な光沢と繰り返し混同することを強調する。
全体として、教師付きトレーニングを備えたコンパクトCNNは、クロスドメイン水中検出に効果的に一般化でき、大きな事前訓練された視覚言語モデルは相補的な強みを提供する。
関連論文リスト
- From Field to Drone: Domain Drift Tolerant Automated Multi-Species and Damage Plant Semantic Segmentation for Herbicide Trials [1.0483690290582848]
本稿では,植物分類に基づく階層的推論を用いた汎用的自己教師型視覚モデルを提案する。
このモデルでは種同定(F1-score: 0.52 - 0.85, R-squared: 0.75 - 0.98)と損傷分類(F1-score: 0.28 - 0.44, R-squared: 0.71 - 0.87)を大幅に改善した。
現在はBASFの表現型パイプラインにデプロイされており、大規模で自動化された作物や雑草のモニタリングが多様な地理的に可能である。
論文 参考訳(メタデータ) (2025-08-11T00:08:42Z) - DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文 参考訳(メタデータ) (2024-10-17T15:25:13Z) - Classification robustness to common optical aberrations [64.08840063305313]
本稿では,現実的かつ実用的な光ぼけ効果に対するロバスト性を調べるためのベンチマークである OpticsBench を提案する。
ImageNetの実験では、様々な訓練済みのDNNに対して、ディスク形状のカーネルと比較して、パフォーマンスが強いことが示されている。
我々は,光カーネルをデータ拡張として使用することにより,拡張可能なImageNet-100について述べる。
論文 参考訳(メタデータ) (2023-08-29T08:36:00Z) - Large-scale Robustness Analysis of Video Action Recognition Models [10.017292176162302]
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
論文 参考訳(メタデータ) (2022-07-04T13:29:34Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Forward-Looking Sonar Patch Matching: Modern CNNs, Ensembling, and
Uncertainty [0.0]
畳み込みニューラルネットワーク(CNN)は類似性関数を学習し、2つの入力ソナー画像が似ているかどうかを予測する。
最高の性能モデルは、0.955 AUCのDenseNet Two-Channelネットワーク、0.949 AUCのVGG-Siamese、0.921 AUCのDenseNet Siameseである。
論文 参考訳(メタデータ) (2021-08-02T17:49:56Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。