Fugu-MT 論文翻訳(概要): Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition

論文の概要: Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition

arxiv url: http://arxiv.org/abs/2503.06978v1
Date: Mon, 10 Mar 2025 06:47:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.742103
Title: Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition
Title（参考訳）: 海中マルチシーン認識のための軽量マルチモーダル人工知能フレームワーク
Authors: Xinyu Xi, Hua Yang, Shentai Zhang, Yijie Liu, Sijin Sun, Xiuju Fu,
Abstract要約: 海中マルチシーン認識は知的海洋ロボットの能力向上に不可欠である。 MLLM(Multimodal Large Language Model)により生成された画像データ、テキスト記述、分類ベクトルを統合する。我々のモデルは98$%の精度を達成し、以前のSOTAモデルを3.5$%の精度で上回っている。この研究は、リアルタイムな海洋環境認識のための高性能なソリューションを提供し、リソース制限された環境での環境モニタリングと災害対応を自律表面車両(ASV)がサポートできるようにする。
参考スコア（独自算出の注目度）: 5.667043618885205
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Maritime Multi-Scene Recognition is crucial for enhancing the capabilities of intelligent marine robotics, particularly in applications such as marine conservation, environmental monitoring, and disaster response. However, this task presents significant challenges due to environmental interference, where marine conditions degrade image quality, and the complexity of maritime scenes, which requires deeper reasoning for accurate recognition. Pure vision models alone are insufficient to address these issues. To overcome these limitations, we propose a novel multimodal Artificial Intelligence (AI) framework that integrates image data, textual descriptions and classification vectors generated by a Multimodal Large Language Model (MLLM), to provide richer semantic understanding and improve recognition accuracy. Our framework employs an efficient multimodal fusion mechanism to further enhance model robustness and adaptability in complex maritime environments. Experimental results show that our model achieves 98$\%$ accuracy, surpassing previous SOTA models by 3.5$\%$. To optimize deployment on resource-constrained platforms, we adopt activation-aware weight quantization (AWQ) as a lightweight technique, reducing the model size to 68.75MB with only a 0.5$\%$ accuracy drop while significantly lowering computational overhead. This work provides a high-performance solution for real-time maritime scene recognition, enabling Autonomous Surface Vehicles (ASVs) to support environmental monitoring and disaster response in resource-limited settings.
Abstract（参考訳）: 海中マルチシーン認識は,特に海洋保全,環境モニタリング,災害対応などの応用において,インテリジェントな海洋ロボットの能力向上に不可欠である。しかし、この課題は、海洋環境が画像品質を劣化させる環境干渉や、正確な認識のためにより深い推論を必要とする海洋環境の複雑さなど、重大な課題を生んでいる。これらの問題に対処するには、純粋なビジョンモデルだけでは不十分です。これらの制約を克服するために,MLLM(Multimodal Large Language Model)が生成する画像データ,テキスト記述,分類ベクトルを統合し,よりリッチな意味理解と認識精度の向上を実現する,新しいマルチモーダル人工知能(AI)フレームワークを提案する。本フレームワークは, 複雑な海洋環境におけるモデルロバスト性と適応性を高めるために, 効率的なマルチモーダル融合機構を用いる。実験の結果,従来のSOTAモデルより3.5$\%の精度で98$\%の精度が得られることがわかった。資源制約のあるプラットフォームへの展開を最適化するため,アクティベーション・アウェア・ウェイト・量子化(AWQ)を軽量な手法として採用し,モデルサイズを0.5$\%の精度低下で68.75MBに削減し,計算オーバーヘッドを大幅に低減した。この研究は、リアルタイムな海洋環境認識のための高性能なソリューションを提供し、リソース制限された環境での環境モニタリングと災害対応を自律表面車両(ASV)がサポートできるようにする。

関連論文リスト

Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [53.16213723669751]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-04T07:47:18Z)
Learning Underwater Active Perception in Simulation [51.205673783866146]
タービディティは、検査された構造物の正確な視覚的記録を阻止する可能性があるため、ミッション全体を危険に晒す可能性がある。従来の研究は、濁度や後方散乱に適応する手法を導入してきた。本研究では, 広範囲の水環境下での高品質な画像取得を実現するための, 単純かつ効率的なアプローチを提案する。
論文参考訳（メタデータ） (2025-04-23T06:48:38Z)
An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-04-10T16:54:28Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。中間画像記述を生成する構造付きマルチラウンド評価機構を含む。複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。コードとモデルはリリースされます。
論文参考訳（メタデータ） (2024-12-12T18:59:26Z)
Quantization-Aware Imitation-Learning for Resource-Efficient Robotic Control [11.365124223329582]
我々は,低ビット精度誤差に対するロバスト性を高めるために,パラメータを微調整するILベースのポリシーモデルのための新しい量子化フレームワークを提案する。実エッジGPU上での4ビット重み量子化のためのロボット操作による評価は,我々のフレームワークが最大2.5倍の高速化と2.5倍の省エネを実現していることを示す。これらの結果は、リソース制約のあるデバイスにILベースのポリシーモデルをデプロイする現実的な可能性を強調している。
論文参考訳（メタデータ） (2024-12-02T01:33:49Z)
LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model [6.074775040047959]
我々は,ECCV AIM UHD-IQAチャレンジ検証とテストデータセット上での最先端(SOTA)性能を実現する,コンパクトで軽量なNR-IQAモデルを提案する。本モデルでは,合成および音響的に歪んだ画像に対して,各枝を個別に訓練した二重ブランチアーキテクチャを特徴とする。各種オープンソースデータセットを考慮した評価では,提案した軽量モデルの実用的,高精度,堅牢な性能を強調した。
論文参考訳（メタデータ） (2024-08-30T07:32:19Z)
VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。 VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2024-03-18T02:38:55Z)
Multi-Hierarchical Surrogate Learning for Structural Dynamical Crash Simulations Using Graph Convolutional Neural Networks [5.582881461692378]
カルトフレームの一連のサロゲートモデルを構造的に生成する多階層フレームワークを提案する。マルチスケール現象では、粗いサロゲート上でマクロスケールの特徴が捉えられ、ミクロスケール効果はより微細なサロゲートによって解決される。我々は、粗い表現上でパラメータ依存の低次元潜在力学を学習するグラフ畳み込みニューラルネットワークに基づくサロゲートを訓練する。
論文参考訳（メタデータ） (2024-02-14T15:22:59Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文参考訳（メタデータ） (2022-11-19T07:50:34Z)
Interpretable Hyperspectral AI: When Non-Convex Modeling meets Hyperspectral Remote Sensing [57.52865154829273]
ハイパースペクトルイメージング、別名画像分光法は、地球科学リモートセンシング(RS)におけるランドマーク技術です。過去10年間で、主に熟練した専門家によってこれらのハイパースペクトル(HS)製品を分析するための取り組みが行われています。このため、さまざまなHS RSアプリケーションのためのよりインテリジェントで自動的なアプローチを開発することが急務です。
論文参考訳（メタデータ） (2021-03-02T03:32:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。