論文の概要: Automatic evaluation of herding behavior in towed fishing gear using
end-to-end training of CNN and attention-based networks
- arxiv url: http://arxiv.org/abs/2303.12016v1
- Date: Tue, 21 Mar 2023 16:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:01:42.796058
- Title: Automatic evaluation of herding behavior in towed fishing gear using
end-to-end training of CNN and attention-based networks
- Title(参考訳): CNNとアテンションベースネットワークのエンドツーエンドトレーニングによる曳航漁具の放牧行動の自動評価
- Authors: Orri Steinn Gu{\dh}finnsson, T\'yr Vilhj\'almsson, Martin Eineborg and
Torfi Thorhallsson
- Abstract要約: 本稿では、エンドツーエンドに訓練された3つの畳み込み型および注目型ディープアクション認識ネットワークアーキテクチャを比較した。
2ストリームCNNモデル、CNN変換器ハイブリッドモデル、純粋なトランスフォーマーモデルがエンドツーエンドで訓練され、63%、54%、10倍の分類精度が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the automatic classification of herding behavior in the
cluttered low-visibility environment that typically surrounds towed fishing
gear. The paper compares three convolutional and attention-based deep action
recognition network architectures trained end-to-end on a small set of video
sequences captured by a remotely controlled camera and classified by an expert
in fishing technology. The sequences depict a scene in front of a fishing trawl
where the conventional herding mechanism has been replaced by directed laser
light. The goal is to detect the presence of a fish in the sequence and
classify whether or not the fish reacts to the lasers. A two-stream CNN model,
a CNN-transformer hybrid, and a pure transformer model were trained end-to-end
to achieve 63%, 54%, and 60% 10-fold classification accuracy on the three-class
task when compared to the human expert. Inspection of the activation maps
learned by the three networks raises questions about the attributes of the
sequences the models may be learning, specifically whether changes in viewpoint
introduced by human camera operators that affect the position of laser lines in
the video frames may interfere with the classification. This underlines the
importance of careful experimental design when capturing scientific data for
automatic end-to-end evaluation and the usefulness of inspecting the trained
models.
- Abstract(参考訳): 本稿では,漁具を取り囲む雑多な低視認性環境における放牧行動の自動分類について考察する。
本論文は,遠隔操作カメラで撮影され,漁業技術の専門家によって分類された小型ビデオシーケンス上で,エンドツーエンドで訓練された3つの畳み込みおよび注意に基づくディープアクション認識ネットワークアーキテクチャを比較した。
シークエンスには、従来のシーディング機構をレーザー光で置き換えた釣りトロールの前のシーンが描かれている。
目的は、シーケンス中の魚の存在を検出し、その魚がレーザーに反応するかどうかを分類することである。
2ストリームCNNモデル,CNN-transformerハイブリッドモデル,純粋トランスフォーマーモデルをエンドツーエンドにトレーニングし,3クラスタスクにおける63%,54%,および60%の10倍の分類精度を人的専門家と比較した。
3つのネットワークが学習したアクティベーションマップの検査は、モデルが学習しているかもしれないシーケンスの属性、特に、ビデオフレーム内のレーザー線の位置に影響を及ぼす人間のカメラオペレーターによってもたらされる視点の変化が分類に干渉するかどうかに関する疑問を提起する。
これは、自動エンドツーエンド評価のために科学的データを取得する際に注意深い実験設計の重要性と、訓練されたモデルを検査する有用性を示す。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Unsupervised Fish Trajectory Tracking and Segmentation [2.1028463367241033]
本稿では,魚の追跡とセグメンテーションのための3段階のフレームワークを提案する。
第1段階は光フローモデルであり、フレーム間の空間的および時間的一貫性を用いて擬似ラベルを生成する。
第2段階では、自己教師付きモデルは擬似ラベルを漸進的に洗練する。
第3段階では、精巧なラベルを使用してセグメンテーションネットワークを訓練する。
論文 参考訳(メタデータ) (2022-08-23T01:01:27Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - HCIL: Hierarchical Class Incremental Learning for Longline Fishing
Visual Monitoring [30.084499552709183]
我々は,CILシナリオ下での最先端の階層的分類法を大幅に改善する階層的クラスインクリメンタルラーニング(HCIL)モデルを導入する。
CILシステムは、データストリームからより多くのクラスを学習できなければならない。つまり、少数のクラスに対するトレーニングデータのみを最初から用意し、新しいクラスを徐々に追加する必要がある。
論文 参考訳(メタデータ) (2022-02-25T23:53:11Z) - Video-based Hierarchical Species Classification for Longline Fishing
Monitoring [17.031967273526803]
ビデオに基づく階層的な分類は、安価で効率的な魚種識別を可能にしている。
漁業科学者が提供した非重なりのない階層型データ構造により,本手法は階層型データ構造を強制する。
実験の結果,提案手法は古典的フラット分類システムよりも優れていた。
論文 参考訳(メタデータ) (2021-02-06T06:10:52Z) - Movement Tracks for the Automatic Detection of Fish Behavior in Videos [63.85815474157357]
水中ビデオでサブルフィッシュ(Anoplopoma fimbria)の発芽行動のデータセットを提供し,その上での深層学習(DL)法による行動検出について検討した。
提案する検出システムは,Long Short-Term Memory(LSTM)ネットワークを用いて,サブルフィッシュの起動動作を識別する。
論文 参考訳(メタデータ) (2020-11-28T05:51:19Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - Temperate Fish Detection and Classification: a Deep Learning based
Approach [6.282069822653608]
本研究では,2段階の深層学習手法を提案する。
最初のステップは、種や性別によらず、画像中の各魚を検出することです。
第2のステップでは、画像中の各魚を事前フィルタリングせずに分類するために、Squeeze-and-Excitation (SE)アーキテクチャを備えた畳み込みニューラルネットワーク(CNN)を採用する。
論文 参考訳(メタデータ) (2020-05-14T12:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。