論文の概要: A multi-stage augmented multimodal interaction network for fish feeding intensity quantification
- arxiv url: http://arxiv.org/abs/2506.14170v1
- Date: Tue, 17 Jun 2025 04:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.324784
- Title: A multi-stage augmented multimodal interaction network for fish feeding intensity quantification
- Title(参考訳): 魚の摂餌強度定量化のための多段階多モード相互作用ネットワーク
- Authors: Shulong Zhang, Mingyuan Yao, Jiayin Zhao, Xiao Liu, Haihua Wang,
- Abstract要約: 本研究では,魚の摂餌強度を定量化するためのマルチステージマルチモーダルインタラクションネットワーク(MAINet)を提案する。
MAINetは96.76%、96.78%、96.79%、96.79%の精度、精度、リコール、F1スコアに達した。
- 参考スコア(独自算出の注目度): 4.177316755878213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recirculating aquaculture systems, accurate and effective assessment of fish feeding intensity is crucial for reducing feed costs and calculating optimal feeding times. However, current studies have limitations in modality selection, feature extraction and fusion, and co-inference for decision making, which restrict further improvement in the accuracy, applicability and reliability of multimodal fusion models. To address this problem, this study proposes a Multi-stage Augmented Multimodal Interaction Network (MAINet) for quantifying fish feeding intensity. Firstly, a general feature extraction framework is proposed to efficiently extract feature information from input image, audio and water wave datas. Second, an Auxiliary-modality Reinforcement Primary-modality Mechanism (ARPM) is designed for inter-modal interaction and generate enhanced features, which consists of a Channel Attention Fusion Network (CAFN) and a Dual-mode Attention Fusion Network (DAFN). Finally, an Evidence Reasoning (ER) rule is introduced to fuse the output results of each modality and make decisions, thereby completing the quantification of fish feeding intensity. The experimental results show that the constructed MAINet reaches 96.76%, 96.78%, 96.79% and 96.79% in accuracy, precision, recall and F1-Score respectively, and its performance is significantly higher than the comparison models. Compared with models that adopt single-modality, dual-modality fusion and different decision-making fusion methods, it also has obvious advantages. Meanwhile, the ablation experiments further verified the key role of the proposed improvement strategy in improving the robustness and feature utilization efficiency of model, which can effectively improve the accuracy of the quantitative results of fish feeding intensity.
- Abstract(参考訳): 循環型養殖システムでは,魚の給餌強度の正確かつ効果的な評価は,給餌コストの低減と最適な給餌時間を算出するために重要である。
しかし、最近の研究では、モダリティの選択、特徴抽出と融合、意思決定の共推論に制限があり、マルチモーダル融合モデルの精度、適用性、信頼性のさらなる向上が制限されている。
そこで本研究では,魚の摂餌強度を定量化するためのマルチステージマルチモーダルインタラクションネットワーク(MAINet)を提案する。
まず,入力画像,音声,水面データから特徴情報を効率的に抽出する汎用的特徴抽出フレームワークを提案する。
第2に、ARPM(Auxiliary-modality Reinforcement Primary-modality Mechanism)は、CAFN(Channel Attention Fusion Network)とDAFN(Dual-mode Attention Fusion Network)で構成される、モーダル間相互作用のために設計され、拡張された特徴を生成する。
最後に、エビデンス推論(ER)ルールを導入し、各モダリティの出力結果を融合させ、決定し、魚の摂食強度の定量化を完了させる。
実験の結果、構築されたMAINetは96.76%、96.78%、96.79%、96.79%の精度、精度、リコール、F1-Scoreに達し、その性能は比較モデルよりもかなり高いことがわかった。
単一モダリティ、二重モダリティ融合、異なる意思決定融合方式を採用するモデルと比較すると、明らかな利点がある。
また, 魚の摂餌強度の定量的結果の精度を効果的に向上させるため, モデルの性能向上と機能利用効率向上における改良戦略の鍵となる役割を, アブレーション実験により検証した。
関連論文リスト
- Attention Is Not Always the Answer: Optimizing Voice Activity Detection with Simple Feature Fusion [2.403252956256118]
本研究は,Wav2vec 2.0, HuBERT, WavLM, UniSpeech, MMS, Whisper など,Mel-Frequency Cepstral Coefficients (MFCCs) とpre-trained model (PTM) の特徴について検討した。
結合性,付加性,横断性という3つの融合戦略を用いて,両方の特徴型を組み合わせた統合型フレームワークであるFusionVADを提案する。
論文 参考訳(メタデータ) (2025-06-02T06:47:42Z) - A multi-head deep fusion model for recognition of cattle foraging events using sound and movement signals [0.2450783418670958]
この研究は、音響信号と慣性信号の融合に基づくディープニューラルネットワークを導入する。
このモデルの主な利点は、それぞれから独立して特徴の自動抽出による信号の組み合わせである。
論文 参考訳(メタデータ) (2025-05-15T11:55:16Z) - Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。
LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。
また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文 参考訳(メタデータ) (2025-04-01T06:58:15Z) - Fish feeding behavior recognition and intensity quantification methods in aquaculture: From single modality analysis to multimodality fusion [6.439672881229881]
魚の摂食行動の認識と強度定量化は、魚の健康のモニタリング、バイティング作業の指導、養殖効率の向上に重要な役割を果たしている。
本稿では,まず,魚の摂食行動認識と強度定量化手法の研究の進歩について,既存のレビューを分析し,比較する。
魚の摂食行動認識および強度定量化法における現生マルチモーダル核融合の応用を概説する。
論文 参考訳(メタデータ) (2025-02-21T09:05:29Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - A Dual Branch Network for Emotional Reaction Intensity Estimation [12.677143408225167]
両分岐型マルチアウトプット回帰モデルであるABAW(Affective Behavior Analysis in-wild)のERI問題に対する解法を提案する。
空間的注意は視覚的特徴をよりよく抽出するために使用され、Mel-Frequency Cepstral Coefficients技術は音響的特徴を抽出する。
本手法は,公式な検証セットにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-16T10:31:40Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。