論文の概要: Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection
- arxiv url: http://arxiv.org/abs/2503.03562v3
- Date: Wed, 26 Mar 2025 03:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:50.214974
- Title: Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection
- Title(参考訳): 実世界の物理力学の視覚的識別と推論に向けて:物理を取り巻く異常検出
- Authors: Wenqiao Li, Yao Gu, Xintao Chen, Xiaohao Xu, Ming Hu, Xiaonan Huang, Yingna Wu,
- Abstract要約: 人間は、物体条件の物理的知識に基づいて、知覚、相互作用、推論によって現実世界の物体の異常を検出する。
Phys-ADは、産業異常検出のための、最初の大規模で現実世界の物理地上ビデオデータセットである。
このデータセットには、22の現実世界のオブジェクトカテゴリにわたる6400以上のビデオが含まれており、ロボットアームやモーターと相互作用し、47種類の異常を示す。
- 参考スコア(独自算出の注目度): 2.1013864820763755
- License:
- Abstract: Humans detect real-world object anomalies by perceiving, interacting, and reasoning based on object-conditioned physical knowledge. The long-term goal of Industrial Anomaly Detection (IAD) is to enable machines to autonomously replicate this skill. However, current IAD algorithms are largely developed and tested on static, semantically simple datasets, which diverge from real-world scenarios where physical understanding and reasoning are essential. To bridge this gap, we introduce the Physics Anomaly Detection (Phys-AD) dataset, the first large-scale, real-world, physics-grounded video dataset for industrial anomaly detection. Collected using a real robot arm and motor, Phys-AD provides a diverse set of dynamic, semantically rich scenarios. The dataset includes more than 6400 videos across 22 real-world object categories, interacting with robot arms and motors, and exhibits 47 types of anomalies. Anomaly detection in Phys-AD requires visual reasoning, combining both physical knowledge and video content to determine object abnormality. We benchmark state-of-the-art anomaly detection methods under three settings: unsupervised AD, weakly-supervised AD, and video-understanding AD, highlighting their limitations in handling physics-grounded anomalies. Additionally, we introduce the Physics Anomaly Explanation (PAEval) metric, designed to assess the ability of visual-language foundation models to not only detect anomalies but also provide accurate explanations for their underlying physical causes. Our project is available at https://guyao2023.github.io/Phys-AD/.
- Abstract(参考訳): 人間は、物体条件の物理的知識に基づいて、知覚、相互作用、推論によって現実世界の物体の異常を検出する。
産業異常検出(IAD)の長期的な目標は、機械がこのスキルを自律的に複製できるようにすることである。
しかし、現在のIADアルゴリズムは、物理的理解と推論が不可欠である現実のシナリオから切り離された静的で意味論的に単純なデータセット上で、大部分が開発され、テストされている。
このギャップを埋めるために,産業異常検出のための物理異常検出(Phys-AD)データセットを導入した。
本物のロボットアームとモーターを使って収集されたPhys-ADは、動的でセマンティックにリッチなシナリオの多様なセットを提供する。
このデータセットには、22の現実世界のオブジェクトカテゴリにわたる6400以上のビデオが含まれており、ロボットアームやモーターと相互作用し、47種類の異常を示す。
Phys-ADにおける異常検出には視覚的推論が必要である。
我々は,非教師付きAD,弱い教師付きAD,ビデオ理解ADの3つの設定の下で,最先端の異常検出手法をベンチマークし,物理基底異常の扱いの限界を強調した。
さらに, 物理異常説明法(PAEval)の指標を導入し, 視覚言語基礎モデルが異常を検出するだけでなく, その基礎となる物理的原因を正確に説明する能力を評価する。
私たちのプロジェクトはhttps://guyao2023.github.io/Phys-AD/で利用可能です。
関連論文リスト
- Measuring Physical Plausibility of 3D Human Poses Using Physics Simulation [19.26289173517333]
本研究では,任意の3次元姿勢推定モデルから予測された3次元ポーズの物理的妥当性と安定性を捉えるための2つの指標を提案する。
物理シミュレーションを用いて,既存の可視性測定値との相関と運動時の安定性の測定を行う。
論文 参考訳(メタデータ) (2025-02-06T20:15:49Z) - The Sound of Water: Inferring Physical Properties from Pouring Liquids [85.30865788636386]
注水液の音響・視覚観測と物理の関連性について検討した。
本研究の目的は, 液位, 容器形状, 注水速度, 充填時間などの物性を自動的に推定することである。
論文 参考訳(メタデータ) (2024-11-18T01:19:37Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - PAD: A Dataset and Benchmark for Pose-agnostic Anomaly Detection [28.973078719467516]
我々は,多目的異常検出データセットとPose-Agnostic Anomaly Detectionベンチマークを開発する。
具体的には、さまざまなポーズと、シミュレーションと実環境の両方で高品質で多様な3D異常を持つ20個の複合形状のレゴ玩具を用いて、MADを構築します。
また,ポーズに依存しない異常検出のために,MADを用いて訓練した新しいOmniposeADを提案する。
論文 参考訳(メタデータ) (2023-10-11T17:59:56Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z) - Trajectory Optimization for Physics-Based Reconstruction of 3d Human
Pose from Monocular Video [31.96672354594643]
本研究は,単眼映像から身体的に可視な人間の動きを推定する作業に焦点をあてる。
物理を考慮しない既存のアプローチは、しばしば運動人工物と時間的に矛盾した出力を生み出す。
提案手法は,Human3.6Mベンチマークにおける既存の物理法と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-24T18:02:49Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。