論文の概要: Grounding Video Reasoning in Physical Signals
- arxiv url: http://arxiv.org/abs/2604.21873v1
- Date: Thu, 23 Apr 2026 17:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.780562
- Title: Grounding Video Reasoning in Physical Signals
- Title(参考訳): 物理信号のグラウンドビデオ推論
- Authors: Alibay Osmanli, Zixu Cheng, Shaogang Gong,
- Abstract要約: 物理ビデオ理解のためのグラウンドドベンチマークを導入する。
ベンチマークには、SSV2、YouCook2、HoloAssist、Roundabout-TAUからの1,560のベースビデオクリップが含まれている。
モデルと家族の至る所で、物理学は全体として最強の体制を維持している。
- 参考スコア(独自算出の注目度): 22.667135960633697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physical video understanding requires more than naming an event correctly. A model can answer a question about pouring, sliding, or collision from textual regularities while still failing to localize the event in time or space. We introduce a grounded benchmark for physical video understanding that extends the what--when--where evaluation structure of V-STaR to four video sources, six physics domains, three prompt families (physics, vstar_like, and neutral_rstr), and four input conditions (original, shuffled, ablated, and frame-masked). The benchmark contains 1,560 base video clips from SSV2, YouCook2, HoloAssist, and Roundabout-TAU. Each clip is first converted into a shared grounded event record, and the three query families are derived from that record. Temporal and spatial targets are shared across prompt families, while the non-physics families use deterministic family-appropriate semantic a_what targets derived from the same record. Across models and prompt families, physics remains the strongest regime overall, vstar_like is the clearest non-physics semantic comparison, and neutral_rstr behaves as a harder templated control. Prompt-family robustness is selective rather than universal, perturbation gains cluster in weak original cases, and spatial grounding is the weakest across settings. These results suggest that video Q&A reasoning benchmarks shall report physically grounded, prompt-aware, and perturbation-aware diagnostics alongside aggregate accuracy.
- Abstract(参考訳): 物理的ビデオ理解には、イベントを正しく命名する以上のものが必要だ。
モデルは、時間や空間におけるイベントのローカライズに失敗したまま、テキストの正規性からの注ぐ、スライドする、あるいは衝突に関する質問に答えることができます。
V-STaRの評価構造を4つのビデオソース,6つの物理領域,3つのプロンプトファミリー(物理,vstar_like,neutral_rstr),4つの入力条件(元,シャッフル,アブレーション,フレームメイク)に拡張した物理ビデオ理解のための基盤的ベンチマークを提案する。
ベンチマークには、SSV2、YouCook2、HoloAssist、Roundabout-TAUからの1,560のベースビデオクリップが含まれている。
各クリップは、まず共有接地されたイベントレコードに変換され、3つのクエリーファミリはそのレコードから導出される。
時間的および空間的対象は、即時的な家族間で共有されるが、非物理学的な家族は、同じレコードから派生した決定論的家族に適した意味的a_whatを使用する。
vstar_likeは最も明確な非物理学的セマンティック比較であり、中性_rstrはより厳しいテンプレート化された制御として振る舞う。
プロンプト系のロバスト性は普遍的ではなく選択的であり、摂動は元の弱い場合においてクラスターを得る。
これらの結果から,ビデオQ&A推論ベンチマークでは,集約精度とともに,身体的根拠,即時認識,摂動認識の診断を報告することが示唆された。
関連論文リスト
- PhysVid: Physics Aware Local Conditioning for Generative Video Models [46.61029355545099]
PhysVidは物理を意識した局所的条件付けスキームで、時間的に連続したフレームの塊上で動作する。
VideoPhyでは、PhysVidは物理コモンセンススコアを、ベースラインビデオジェネレータで$approx 33%で改善している。
論文 参考訳(メタデータ) (2026-03-27T10:51:57Z) - Vid2Sid: Videos Can Help Close the Sim2Real Gap [11.15632917885084]
Vid2Sidはビデオ駆動型システム識別パイプラインで、基礎モデル認識とVLM-in-the-loopを結合する。
VLM誘導最適化は、知覚がクリーンでシミュレータが表現性が高い場合に優れる。
論文 参考訳(メタデータ) (2026-02-22T22:08:16Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and
Game Theory [70.75605157754771]
ジオデシック・ゲーム・ローカライゼーション(Geodesic and Game Localization, G2L)は,ジオデシック・ゲーム理論によるセマンティック・アライメントと均一なビデオグラウンドティング・フレームワークである。
本研究は,モデルが正しいクロスモーダル表現を学習するための測地距離を利用したモーメント間の相関関係を定量化する。
論文 参考訳(メタデータ) (2023-07-26T16:14:21Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。