論文の概要: From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning
- arxiv url: http://arxiv.org/abs/2502.05843v3
- Date: Mon, 24 Mar 2025 12:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:46.282648
- Title: From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning
- Title(参考訳): オブジェクトからイベントへ: LLM誘導シンボリック推論によるオブジェクト検出器における複雑な視覚理解の解錠
- Authors: Yuhui Zeng, Haoxiang Wu, Wenjie Nie, Xiawu Zheng, Guangyao Chen, Yunhang Shen, Jun Peng, Yonghong Tian, Rongrong Ji,
- Abstract要約: オープンボキャブラリ検出器を用いたプラグアンドプレイフレームワークインタフェースの提案。
提案手法は, 検出された実体間の関係パターンを探索する記号的回帰機構を組み合わせたものである。
トレーニング不要のフレームワークを、さまざまなアプリケーションドメインにまたがる特別なイベント認識システムと比較した。
- 参考スコア(独自算出の注目度): 71.41062111470414
- License:
- Abstract: Our key innovation lies in bridging the semantic gap between object detection and event understanding without requiring expensive task-specific training. The proposed plug-and-play framework interfaces with any open-vocabulary detector while extending their inherent capabilities across architectures. At its core, our approach combines (i) a symbolic regression mechanism exploring relationship patterns among detected entities and (ii) a LLM-guided strategically guiding the search toward meaningful expressions. These discovered symbolic rules transform low-level visual perception into interpretable event understanding, providing a transparent reasoning path from objects to events with strong transferability across domains.We compared our training-free framework against specialized event recognition systems across diverse application domains. Experiments demonstrate that our framework enhances multiple object detector architectures to recognize complex events such as illegal fishing activities (75% AUROC, +8.36% improvement), construction safety violations (+15.77%), and abnormal crowd behaviors (+23.16%). The code will be released soon.
- Abstract(参考訳): 私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
提案したプラグイン・アンド・プレイ・フレームワーク・インタフェースは,任意のオープンボキャブラリ検出機能を備えながら,アーキテクチャ全体に固有の機能を拡張している。
その中核は、私たちのアプローチが結合することです。
一 検出された実体と関係パターンを探索する象徴的回帰機構
(2)LLM誘導による意味のある表現への探索を戦略的に導くこと。
これらのシンボリックルールは,低レベルの視覚知覚を解釈可能なイベント理解に変換し,ドメイン間の強い伝達性を持つイベントからオブジェクトへの透過的な推論経路を提供する。
実験により, 違法漁業活動(75%AUROC, +8.36%改善), 建設安全違反(+15.77%), 異常群集行動(+23.16%改善)などの複雑な事象を認識するために, 複数の物体検出アーキテクチャが拡張された。
コードはまもなくリリースされる。
関連論文リスト
- Propensity-driven Uncertainty Learning for Sample Exploration in Source-Free Active Domain Adaptation [19.620523416385346]
ソースフリーアクティブドメイン適応(SFADA)は、ソースデータにアクセスせずに、トレーニング済みのモデルを新しいドメインに適応するという課題に対処する。
このシナリオは、データプライバシ、ストレージ制限、ラベル付けコストが重要な懸念事項である現実世界のアプリケーションに特に関係している。
Propensity-driven Uncertainty Learning (ProULearn) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T10:05:25Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Explainable Attention for Few-shot Learning and Beyond [7.044125601403848]
本稿では,説明可能な難易度発見,特に数発の学習シナリオに適した新しいフレームワークを提案する。
提案手法では、深層強化学習を用いて、生の入力データに直接影響するハードアテンションの概念を実装している。
論文 参考訳(メタデータ) (2023-10-11T18:33:17Z) - Comparing AutoML and Deep Learning Methods for Condition Monitoring
using Realistic Validation Scenarios [0.0]
本研究では、AutoMLツールボックスを用いた条件監視タスクにおける従来の機械学習手法とディープラーニングを広範囲に比較する。
実験では、ランダムなK倍のクロスバリデーションシナリオにおいて、全ての試験モデルに対して一貫した高い精度を示す。
実際のシナリオにおけるドメインシフトの存在を示す明確な勝者は現れない。
論文 参考訳(メタデータ) (2023-08-28T14:57:29Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Empirical Perspectives on One-Shot Semi-supervised Learning [0.0]
新しいアプリケーションにディープニューラルネットワークを採用する際の最大の障害の1つは、ネットワークのトレーニングが通常、多数の手作業によるトレーニングサンプルを必要とすることである。
ディープネットワークをトレーニングするためには、大量のラベル付きデータにアクセスするが、クラス毎に1つのサンプルのみをラベル付けする必要があるシナリオを実証的に検討する。
論文 参考訳(メタデータ) (2020-04-08T17:51:06Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。