論文の概要: Multi-turn Physics-informed Vision-language Model for Physics-grounded Anomaly Detection
- arxiv url: http://arxiv.org/abs/2603.15237v1
- Date: Mon, 16 Mar 2026 13:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.302464
- Title: Multi-turn Physics-informed Vision-language Model for Physics-grounded Anomaly Detection
- Title(参考訳): 物理基底異常検出のためのマルチターン物理インフォームドビジョン言語モデル
- Authors: Yao Gu, Xiaohao Xu, Yingna Wu,
- Abstract要約: VLM(Vision-Language Models)は、強い汎用的推論を示すが、物理基底の異常検出には限界がある。
本稿では,オブジェクトの特性,動作パラダイム,動的制約を構造化プロンプトに明示的にエンコードする物理インフォームド・インストラクション・チューニング・フレームワークを提案する。
本手法は因果推論を段階的に分解し,正常および異常な力学の頑健な内部表現を可能にする。
- 参考スコア(独自算出の注目度): 14.334664591376884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) demonstrate strong general-purpose reasoning but remain limited in physics-grounded anomaly detection, where causal understanding of dynamics is essential. Existing VLMs, trained predominantly on appearance-centric correlations, fail to capture kinematic constraints, leading to poor performance on anomalies such as irregular rotations or violated mechanical motions. We introduce a physics-informed instruction tuning framework that explicitly encodes object properties, motion paradigms, and dynamic constraints into structured prompts. By delivering these physical priors through multi-turn dialogues, our method decomposes causal reasoning into incremental steps, enabling robust internal representations of normal and abnormal dynamics. Evaluated on the Phys-AD benchmark, our approach achieves 96.7% AUROC in video-level detection--substantially outperforming prior SOTA (66.9%)--and yields superior causal explanations (0.777 LLM score). This work highlights how structured physics priors can transform VLMs into reliable detectors of dynamic anomalies.
- Abstract(参考訳): VLM(Vision-Language Models)は、強い汎用的推論を示すが、力学の因果的理解が不可欠である物理基底異常検出において制限される。
既存のVLMは外見中心の相関関係を主に訓練したが、運動性の制約を捉えず、不規則な回転や機械運動の違反といった異常な性能が低下した。
本稿では,オブジェクトの特性,動作パラダイム,動的制約を構造化プロンプトに明示的にエンコードする物理インフォームド・インストラクション・チューニング・フレームワークを提案する。
そこで本手法では, 因果推論をインクリメンタルなステップに分解し, 正常および異常な力学の頑健な内部表現を可能にする。
Phys-ADベンチマークで評価し,ビデオレベルの検出において96.7%のAUROCを達成した。
この研究は、構造物理学の先行者がVLMを動的異常の信頼できる検出器に変換する方法について強調する。
関連論文リスト
- PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models [100.65199317765608]
物理原理は現実的な視覚シミュレーションには基本的だが、トランスフォーマーベースのビデオ生成において重要な監視対象である。
本研究では,物理衝突ルールを高次元空間に直接適用した映像生成モデルのための物理認識強化学習パラダイムを提案する。
このパラダイムを、MDcycle(Mimicry-Discovery Cycle)と呼ばれる統合フレームワークに拡張することで、大幅な微調整を可能にします。
論文 参考訳(メタデータ) (2026-01-16T08:40:10Z) - Inference-time Physics Alignment of Video Generative Models with Latent World Models [28.62446995107834]
我々はWMRewardを導入し、推論時間アライメント問題としてビデオ生成の物理的妥当性を改善する。
特に、潜在世界モデルに先立って強い物理を応用し、複数の候補の軌道を探索し、操舵する報奨として活用する。
提案手法は,画像条件,マルチフレーム条件,テキスト条件による生成設定の物理的妥当性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-15T16:18:00Z) - SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models [60.80050275581661]
VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
物理力学に関する基礎的な理解は欠如している。
テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。
本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-12-05T18:51:03Z) - MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models [45.450035386882824]
視覚言語モデル(VLM)は、標準的なビデオタスクではうまく機能するが、運動力学や空間的相互作用を含む物理駆動推論に苦慮する。
本稿では,物理世界のコンテキストキューをVLMの知覚,理解,推論に合わせた解釈可能な表現に変換することによって,このギャップに対処するアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-23T09:43:44Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction [52.44375492811009]
物理学に基づくシミュレーターにおいて,ヒューマノイド制御のための視覚行動ポリシーを学習する統合フレームワークであるPhysHMRを提案する。
我々のアプローチの重要な要素はピクセル・アズ・レイ戦略であり、2次元のキーポイントを3次元空間に上げ、それらを大域空間に変換する。
PhysHMRは多種多様なシナリオにまたがって高忠実で物理的に妥当な動きを生じさせ、視覚的精度と身体的リアリズムの両方において以前のアプローチより優れている。
論文 参考訳(メタデータ) (2025-10-02T21:01:11Z) - PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM [17.554471769834453]
一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - Which priors matter? Benchmarking models for learning latent dynamics [70.88999063639146]
古典力学の先行概念を機械学習モデルに統合する手法が提案されている。
これらのモデルの現在の機能について、精査する。
連続的および時間的可逆的ダイナミクスの使用は、すべてのクラスのモデルに恩恵をもたらす。
論文 参考訳(メタデータ) (2021-11-09T23:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。