Fugu-MT 論文翻訳(概要): VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

論文の概要: VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

arxiv url: http://arxiv.org/abs/2403.12415v1
Date: Tue, 19 Mar 2024 03:55:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 15:31:57.815110
Title: VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation
Title（参考訳）: VisionGPT: 安全な視覚ナビゲーションのためのLLM支援リアルタイム異常検出
Authors: Hao Wang, Jiayou Qin, Ashish Bastola, Xiwen Chen, John Suchanek, Zihao Gong, Abolfazl Razi,
Abstract要約: 本稿では,画像ナビゲーションのためのゼロショット異常検出におけるLarge Language Modelsの可能性について検討する。提案フレームワークは,カメラキャプチャフレーム内の任意の障害を含む異常を識別し,異常を強調した簡潔な音声記述を生成する。
参考スコア（独自算出の注目度）: 3.837186701755568
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the potential of Large Language Models(LLMs) in zero-shot anomaly detection for safe visual navigation. With the assistance of the state-of-the-art real-time open-world object detection model Yolo-World and specialized prompts, the proposed framework can identify anomalies within camera-captured frames that include any possible obstacles, then generate concise, audio-delivered descriptions emphasizing abnormalities, assist in safe visual navigation in complex circumstances. Moreover, our proposed framework leverages the advantages of LLMs and the open-vocabulary object detection model to achieve the dynamic scenario switch, which allows users to transition smoothly from scene to scene, which addresses the limitation of traditional visual navigation. Furthermore, this paper explored the performance contribution of different prompt components, provided the vision for future improvement in visual accessibility, and paved the way for LLMs in video anomaly detection and vision-language understanding.
Abstract（参考訳）: 本稿では,画像ナビゲーションのためのゼロショット異常検出におけるLarge Language Models(LLMs)の可能性について検討する。最先端のリアルタイムオープンワールドオブジェクト検出モデルYolo-Worldと特殊なプロンプトにより、提案フレームワークは、任意の障害を含むカメラキャプチャフレーム内の異常を識別し、異常を強調した簡潔でオーディオ配信された記述を生成し、複雑な状況下で安全な視覚ナビゲーションを支援する。さらに,LLMとオープン語彙オブジェクト検出モデルの利点を利用して動的シナリオスイッチを実現し,従来の視覚ナビゲーションの限界に対処するシーンからシーンへのスムーズな遷移を可能にする。さらに,視覚的アクセシビリティ向上のためのビジョンを提供し,映像の異常検出と視覚言語理解におけるLCMの道のりを開拓した。

関連論文リスト

From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。 Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文参考訳（メタデータ） (2025-06-30T05:01:40Z)
Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文参考訳（メタデータ） (2025-05-02T06:51:11Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Unlocking the Capabilities of Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在の視覚言語モデル(VLM)は、マルチモーダルデータの理解において顕著な能力を示しているが、そのポテンシャルはディープフェイク検出に過小評価されている。本稿では,VLMの潜在能力を3つのコンポーネントで解き放つ新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-03-19T03:20:03Z)
Large Models in Dialogue for Active Perception and Anomaly Detection [35.16837804526144]
本稿では,新たなシーンにおける情報収集と異常検出を行うフレームワークを提案する。 2つのディープラーニングモデルが対話を行い、ドローンを積極的に制御し、認識と異常検出の精度を高める。情報収集に加えて,本手法を異常検出に利用し,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-01-27T18:38:36Z)
When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文参考訳（メタデータ） (2025-01-17T23:35:34Z)
Quo Vadis, Anomaly Detection? LLMs and VLMs in the Spotlight [2.290956583394892]
ビデオ異常検出(VAD)は,大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合することで,大幅な進歩をみせた。本稿では,2024年における最先端LLM-/VLM法の詳細について述べる。
論文参考訳（メタデータ） (2024-12-24T09:05:37Z)
Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文参考訳（メタデータ） (2024-11-08T15:50:30Z)
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines [18.602869210526848]
Vision Search Assistantは、視覚言語モデルとWebエージェントの協調を促進する新しいフレームワークである。このコラボレーションを通じて視覚的およびテキスト的表現を統合することにより、システムは、その画像がシステムに新規である場合でも、インフォームドレスポンスを提供することができる。
論文参考訳（メタデータ） (2024-10-28T17:04:18Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models [72.75669790569629]
LVLM(Large Vision-Language Models)における視覚言語アライメントにより、LLMは視覚入力を理解することができる。既存の視覚言語アライメント手法では,LLMにおけるテキストの安全性機構を視覚に転送できないことがわかった。 LVLMのための新しいテキストガイド型視覚言語アライメント法(TGA)を提案する。
論文参考訳（メタデータ） (2024-10-16T15:20:08Z)
VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文参考訳（メタデータ） (2024-09-30T09:51:29Z)
End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文参考訳（メタデータ） (2024-09-19T06:25:01Z)
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文参考訳（メタデータ） (2024-05-31T13:56:55Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文参考訳（メタデータ） (2024-02-13T18:39:18Z)
HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文参考訳（メタデータ） (2023-09-11T01:24:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。