論文の概要: Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition
- arxiv url: http://arxiv.org/abs/2503.06978v1
- Date: Mon, 10 Mar 2025 06:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:01.112598
- Title: Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition
- Title(参考訳): 海中マルチシーン認識のための軽量マルチモーダル人工知能フレームワーク
- Authors: Xinyu Xi, Hua Yang, Shentai Zhang, Yijie Liu, Sijin Sun, Xiuju Fu,
- Abstract要約: 海中マルチシーン認識は知的海洋ロボットの能力向上に不可欠である。
MLLM(Multimodal Large Language Model)により生成された画像データ、テキスト記述、分類ベクトルを統合する。
我々のモデルは98$%の精度を達成し、以前のSOTAモデルを3.5$%の精度で上回っている。
この研究は、リアルタイムな海洋環境認識のための高性能なソリューションを提供し、リソース制限された環境での環境モニタリングと災害対応を自律表面車両(ASV)がサポートできるようにする。
- 参考スコア(独自算出の注目度): 5.667043618885205
- License:
- Abstract: Maritime Multi-Scene Recognition is crucial for enhancing the capabilities of intelligent marine robotics, particularly in applications such as marine conservation, environmental monitoring, and disaster response. However, this task presents significant challenges due to environmental interference, where marine conditions degrade image quality, and the complexity of maritime scenes, which requires deeper reasoning for accurate recognition. Pure vision models alone are insufficient to address these issues. To overcome these limitations, we propose a novel multimodal Artificial Intelligence (AI) framework that integrates image data, textual descriptions and classification vectors generated by a Multimodal Large Language Model (MLLM), to provide richer semantic understanding and improve recognition accuracy. Our framework employs an efficient multimodal fusion mechanism to further enhance model robustness and adaptability in complex maritime environments. Experimental results show that our model achieves 98$\%$ accuracy, surpassing previous SOTA models by 3.5$\%$. To optimize deployment on resource-constrained platforms, we adopt activation-aware weight quantization (AWQ) as a lightweight technique, reducing the model size to 68.75MB with only a 0.5$\%$ accuracy drop while significantly lowering computational overhead. This work provides a high-performance solution for real-time maritime scene recognition, enabling Autonomous Surface Vehicles (ASVs) to support environmental monitoring and disaster response in resource-limited settings.
- Abstract(参考訳): 海中マルチシーン認識は,特に海洋保全,環境モニタリング,災害対応などの応用において,インテリジェントな海洋ロボットの能力向上に不可欠である。
しかし、この課題は、海洋環境が画像品質を劣化させる環境干渉や、正確な認識のためにより深い推論を必要とする海洋環境の複雑さなど、重大な課題を生んでいる。
これらの問題に対処するには、純粋なビジョンモデルだけでは不十分です。
これらの制約を克服するために,MLLM(Multimodal Large Language Model)が生成する画像データ,テキスト記述,分類ベクトルを統合し,よりリッチな意味理解と認識精度の向上を実現する,新しいマルチモーダル人工知能(AI)フレームワークを提案する。
本フレームワークは, 複雑な海洋環境におけるモデルロバスト性と適応性を高めるために, 効率的なマルチモーダル融合機構を用いる。
実験の結果,従来のSOTAモデルより3.5$\%の精度で98$\%の精度が得られることがわかった。
資源制約のあるプラットフォームへの展開を最適化するため,アクティベーション・アウェア・ウェイト・量子化(AWQ)を軽量な手法として採用し,モデルサイズを0.5$\%の精度低下で68.75MBに削減し,計算オーバーヘッドを大幅に低減した。
この研究は、リアルタイムな海洋環境認識のための高性能なソリューションを提供し、リソース制限された環境での環境モニタリングと災害対応を自律表面車両(ASV)がサポートできるようにする。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Quantization-Aware Imitation-Learning for Resource-Efficient Robotic Control [11.365124223329582]
我々は,低ビット精度誤差に対するロバスト性を高めるために,パラメータを微調整するILベースのポリシーモデルのための新しい量子化フレームワークを提案する。
実エッジGPU上での4ビット重み量子化のためのロボット操作による評価は,我々のフレームワークが最大2.5倍の高速化と2.5倍の省エネを実現していることを示す。
これらの結果は、リソース制約のあるデバイスにILベースのポリシーモデルをデプロイする現実的な可能性を強調している。
論文 参考訳(メタデータ) (2024-12-02T01:33:49Z) - LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model [6.074775040047959]
我々は,ECCV AIM UHD-IQAチャレンジ検証とテストデータセット上での最先端(SOTA)性能を実現する,コンパクトで軽量なNR-IQAモデルを提案する。
本モデルでは,合成および音響的に歪んだ画像に対して,各枝を個別に訓練した二重ブランチアーキテクチャを特徴とする。
各種オープンソースデータセットを考慮した評価では,提案した軽量モデルの実用的,高精度,堅牢な性能を強調した。
論文 参考訳(メタデータ) (2024-08-30T07:32:19Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - Multi-Hierarchical Surrogate Learning for Structural Dynamical Crash
Simulations Using Graph Convolutional Neural Networks [5.582881461692378]
カルトフレームの一連のサロゲートモデルを構造的に生成する多階層フレームワークを提案する。
マルチスケール現象では、粗いサロゲート上でマクロスケールの特徴が捉えられ、ミクロスケール効果はより微細なサロゲートによって解決される。
我々は、粗い表現上でパラメータ依存の低次元潜在力学を学習するグラフ畳み込みニューラルネットワークに基づくサロゲートを訓練する。
論文 参考訳(メタデータ) (2024-02-14T15:22:59Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Interfacing Finite Elements with Deep Neural Operators for Fast
Multiscale Modeling of Mechanics Problems [4.280301926296439]
本研究では,機械学習を用いたマルチスケールモデリングのアイデアを探求し,高コストソルバの効率的なサロゲートとしてニューラル演算子DeepONetを用いる。
DeepONetは、きめ細かい解法から取得したデータを使って、基礎とおそらく未知のスケールのダイナミクスを学習してオフラインでトレーニングされている。
精度とスピードアップを評価するための様々なベンチマークを提示し、特に時間依存問題に対する結合アルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-25T20:46:08Z) - Interpretable Hyperspectral AI: When Non-Convex Modeling meets
Hyperspectral Remote Sensing [57.52865154829273]
ハイパースペクトルイメージング、別名画像分光法は、地球科学リモートセンシング(RS)におけるランドマーク技術です。
過去10年間で、主に熟練した専門家によってこれらのハイパースペクトル(HS)製品を分析するための取り組みが行われています。
このため、さまざまなHS RSアプリケーションのためのよりインテリジェントで自動的なアプローチを開発することが急務です。
論文 参考訳(メタデータ) (2021-03-02T03:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。