論文の概要: From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning
- arxiv url: http://arxiv.org/abs/2502.05843v3
- Date: Mon, 24 Mar 2025 12:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.482105
- Title: From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning
- Title(参考訳): オブジェクトからイベントへ: LLM誘導シンボリック推論によるオブジェクト検出器における複雑な視覚理解の解錠
- Authors: Yuhui Zeng, Haoxiang Wu, Wenjie Nie, Xiawu Zheng, Guangyao Chen, Yunhang Shen, Jun Peng, Yonghong Tian, Rongrong Ji,
- Abstract要約: オープンボキャブラリ検出器を用いたプラグアンドプレイフレームワークインタフェースの提案。
提案手法は, 検出された実体間の関係パターンを探索する記号的回帰機構を組み合わせたものである。
トレーニング不要のフレームワークを、さまざまなアプリケーションドメインにまたがる特別なイベント認識システムと比較した。
- 参考スコア(独自算出の注目度): 71.41062111470414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our key innovation lies in bridging the semantic gap between object detection and event understanding without requiring expensive task-specific training. The proposed plug-and-play framework interfaces with any open-vocabulary detector while extending their inherent capabilities across architectures. At its core, our approach combines (i) a symbolic regression mechanism exploring relationship patterns among detected entities and (ii) a LLM-guided strategically guiding the search toward meaningful expressions. These discovered symbolic rules transform low-level visual perception into interpretable event understanding, providing a transparent reasoning path from objects to events with strong transferability across domains.We compared our training-free framework against specialized event recognition systems across diverse application domains. Experiments demonstrate that our framework enhances multiple object detector architectures to recognize complex events such as illegal fishing activities (75% AUROC, +8.36% improvement), construction safety violations (+15.77%), and abnormal crowd behaviors (+23.16%). The code will be released soon.
- Abstract(参考訳): 私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
提案したプラグイン・アンド・プレイ・フレームワーク・インタフェースは,任意のオープンボキャブラリ検出機能を備えながら,アーキテクチャ全体に固有の機能を拡張している。
その中核は、私たちのアプローチが結合することです。
一 検出された実体と関係パターンを探索する象徴的回帰機構
(2)LLM誘導による意味のある表現への探索を戦略的に導くこと。
これらのシンボリックルールは,低レベルの視覚知覚を解釈可能なイベント理解に変換し,ドメイン間の強い伝達性を持つイベントからオブジェクトへの透過的な推論経路を提供する。
実験により, 違法漁業活動(75%AUROC, +8.36%改善), 建設安全違反(+15.77%), 異常群集行動(+23.16%改善)などの複雑な事象を認識するために, 複数の物体検出アーキテクチャが拡張された。
コードはまもなくリリースされる。
関連論文リスト
- GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions [24.947855662285015]
物理特性を指向したChain-of-Thought(CoT)推論機構を統合した6-DoFグリップ検出フレームワークを提案する。
IntentGraspは、多目的把握検出のための公共データセットのギャップを、多言語および間接的なコマンドで埋める大規模なベンチマークである。
論文 参考訳(メタデータ) (2025-03-20T10:32:38Z) - MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering [5.503514317063399]
既存のオープンボキャブラリ検出器は、複雑な視覚・テクスチャのミスアライメントと長い尾のカテゴリーの不均衡によって制限される。
マルチモーダルな大言語モデルのクロスモーダル推論機能を活用することで、既存のオープン語彙検出器を強化するための共通パラダイムであるMQADetを紹介する。
複雑なテキストと視覚的ターゲットを正確にローカライズするためにMLLMをガイドする3段階のMultimodal Question Answering (MQA) パイプラインを設計する。
論文 参考訳(メタデータ) (2025-02-23T07:59:39Z) - Propensity-driven Uncertainty Learning for Sample Exploration in Source-Free Active Domain Adaptation [19.620523416385346]
ソースフリーアクティブドメイン適応(SFADA)は、ソースデータにアクセスせずに、トレーニング済みのモデルを新しいドメインに適応するという課題に対処する。
このシナリオは、データプライバシ、ストレージ制限、ラベル付けコストが重要な懸念事項である現実世界のアプリケーションに特に関係している。
Propensity-driven Uncertainty Learning (ProULearn) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T10:05:25Z) - OW-Rep: Open World Object Detection with Instance Representation Learning [1.8749305679160366]
Open World Object Detection (OWOD)は、見えないオブジェクトクラスが出現する現実的なシナリオに対処する。
OWODフレームワークを拡張して、未知のオブジェクトを共同で検出し、セマンティックにリッチなインスタンス埋め込みを学ぶ。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - Explainable Attention for Few-shot Learning and Beyond [7.044125601403848]
本稿では,説明可能な難易度発見,特に数発の学習シナリオに適した新しいフレームワークを提案する。
提案手法では、深層強化学習を用いて、生の入力データに直接影響するハードアテンションの概念を実装している。
論文 参考訳(メタデータ) (2023-10-11T18:33:17Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Comparing AutoML and Deep Learning Methods for Condition Monitoring
using Realistic Validation Scenarios [0.0]
本研究では、AutoMLツールボックスを用いた条件監視タスクにおける従来の機械学習手法とディープラーニングを広範囲に比較する。
実験では、ランダムなK倍のクロスバリデーションシナリオにおいて、全ての試験モデルに対して一貫した高い精度を示す。
実際のシナリオにおけるドメインシフトの存在を示す明確な勝者は現れない。
論文 参考訳(メタデータ) (2023-08-28T14:57:29Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Texture-guided Saliency Distilling for Unsupervised Salient Object
Detection [67.10779270290305]
本研究では, 簡便かつ高精度な塩分濃度の知識を抽出するUSOD法を提案する。
提案手法は,RGB,RGB-D,RGB-T,ビデオSODベンチマーク上での最先端USOD性能を実現する。
論文 参考訳(メタデータ) (2022-07-13T02:01:07Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。