論文の概要: Large Models in Dialogue for Active Perception and Anomaly Detection
- arxiv url: http://arxiv.org/abs/2501.16300v1
- Date: Mon, 27 Jan 2025 18:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:02.402840
- Title: Large Models in Dialogue for Active Perception and Anomaly Detection
- Title(参考訳): アクティブ・パーセプションと異常検出のための対話における大規模モデル
- Authors: Tzoulio Chamiti, Nikolaos Passalis, Anastasios Tefas,
- Abstract要約: 本稿では,新たなシーンにおける情報収集と異常検出を行うフレームワークを提案する。
2つのディープラーニングモデルが対話を行い、ドローンを積極的に制御し、認識と異常検出の精度を高める。
情報収集に加えて,本手法を異常検出に利用し,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 35.16837804526144
- License:
- Abstract: Autonomous aerial monitoring is an important task aimed at gathering information from areas that may not be easily accessible by humans. At the same time, this task often requires recognizing anomalies from a significant distance or not previously encountered in the past. In this paper, we propose a novel framework that leverages the advanced capabilities provided by Large Language Models (LLMs) to actively collect information and perform anomaly detection in novel scenes. To this end, we propose an LLM based model dialogue approach, in which two deep learning models engage in a dialogue to actively control a drone to increase perception and anomaly detection accuracy. We conduct our experiments in a high fidelity simulation environment where an LLM is provided with a predetermined set of natural language movement commands mapped into executable code functions. Additionally, we deploy a multimodal Visual Question Answering (VQA) model charged with the task of visual question answering and captioning. By engaging the two models in conversation, the LLM asks exploratory questions while simultaneously flying a drone into different parts of the scene, providing a novel way to implement active perception. By leveraging LLMs reasoning ability, we output an improved detailed description of the scene going beyond existing static perception approaches. In addition to information gathering, our approach is utilized for anomaly detection and our results demonstrate the proposed methods effectiveness in informing and alerting about potential hazards.
- Abstract(参考訳): 自律的な航空監視は、人間が容易にアクセスできない可能性のある地域から情報を集めることを目的とした重要なタスクである。
同時に、このタスクは、しばしば、かなりの距離から、または過去に遭遇したことのない異常を認識する必要がある。
本稿では,Large Language Models (LLMs) が提供する高度な機能を活用して,情報収集を活発に行い,新たなシーンで異常検出を行う新しいフレームワークを提案する。
そこで本研究では,LLMに基づくモデル対話手法を提案する。2つのディープラーニングモデルが対話を行い,ドローンをアクティブに制御し,認識と異常検出の精度を高める。
我々は、LLMに、実行可能コード関数にマッピングされた自然言語移動コマンドのセットを予め用意した高忠実度シミュレーション環境で実験を行う。
さらに、視覚的質問応答とキャプションのタスクに課金されるマルチモーダル視覚質問応答(VQA)モデルをデプロイする。
2つのモデルと会話することで、LLMは探索的な質問をし、同時にドローンをシーンのさまざまな部分に飛ばし、アクティブな知覚を実現する新しい方法を提供する。
LLMの推論能力を活用することで、既存の静的認識アプローチを超えて、シーンの詳細な記述を改善することができる。
情報収集に加えて,本手法を異常検出に利用し,本手法の有効性を実証した。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning [11.526471286502993]
ビデオベースヒューマンオブジェクトインタラクション(V-HOI)検出は,セマンティックシーン理解において重要な課題である。
以前のV-HOI検出モデルは、特定のデータセットの正確な検出に大きく進歩した。
本稿では、現在のV-HOI検出モデルの性能向上を図るために、V-HOI Multi-LLMs Collaborated Reasoning (V-HOI MLCR)を提案する。
論文 参考訳(メタデータ) (2024-03-15T08:51:15Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Multi-Agent Active Search using Realistic Depth-Aware Noise Model [8.520962086877548]
未知の環境における関心のある物体の活発な探索には、探索と救助、ガス漏れの検出、動物の密猟者の発見など、多くのロボティクスの応用がある。
既存のアルゴリズムでは、対象物の位置精度を優先することが多いが、距離や視線の関数としての物体検出の信頼性などの実用的問題は無視されている。
モノクラー光学画像と深度マップからの2つの感覚情報に基づいて,複数の地上ロボットに対して,これらの問題に対処するアルゴリズムをNATS(Noss-Aware Thompson Sampling)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-09T23:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。