論文の概要: PhysLab: A Benchmark Dataset for Multi-Granularity Visual Parsing of Physics Experiments
- arxiv url: http://arxiv.org/abs/2506.06631v1
- Date: Sat, 07 Jun 2025 02:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.369739
- Title: PhysLab: A Benchmark Dataset for Multi-Granularity Visual Parsing of Physics Experiments
- Title(参考訳): PhysLab: 物理実験の多面的視覚解析のためのベンチマークデータセット
- Authors: Minghao Zou, Qingtian Zeng, Yongping Miao, Shangkun Liu, Zilong Wang, Hantao Liu, Wei Zhou,
- Abstract要約: 我々は、複雑な物理実験を行う学生をキャプチャする最初のビデオデータセットであるPhysLabを紹介した。
このデータセットには4つの代表的な実験が含まれており、多様な科学機器と豊かな人間と物体の相互作用(HOI)パターンが特徴である。
PhysLabは620の長ビデオで構成され、さまざまなビジョンタスクをサポートするマルチレベルアノテーションを提供する。
- 参考スコア(独自算出の注目度): 16.800647681719045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual parsing of images and videos is critical for a wide range of real-world applications. However, progress in this field is constrained by limitations of existing datasets: (1) insufficient annotation granularity, which impedes fine-grained scene understanding and high-level reasoning; (2) limited coverage of domains, particularly a lack of datasets tailored for educational scenarios; and (3) lack of explicit procedural guidance, with minimal logical rules and insufficient representation of structured task process. To address these gaps, we introduce PhysLab, the first video dataset that captures students conducting complex physics experiments. The dataset includes four representative experiments that feature diverse scientific instruments and rich human-object interaction (HOI) patterns. PhysLab comprises 620 long-form videos and provides multilevel annotations that support a variety of vision tasks, including action recognition, object detection, HOI analysis, etc. We establish strong baselines and perform extensive evaluations to highlight key challenges in the parsing of procedural educational videos. We expect PhysLab to serve as a valuable resource for advancing fine-grained visual parsing, facilitating intelligent classroom systems, and fostering closer integration between computer vision and educational technologies. The dataset and the evaluation toolkit are publicly available at https://github.com/ZMH-SDUST/PhysLab.
- Abstract(参考訳): 画像やビデオの視覚的パーシングは、さまざまな現実世界のアプリケーションに不可欠である。
しかし,この領域の進展は,(1)微粒なシーン理解や高レベルの推論を阻害する十分なアノテーションの粒度の不足,(2)教育シナリオに適したデータセットの不足,(3)最小の論理規則と構造化タスクプロセスの表現不足など,既存のデータセットの限界によって制約されている。
これらのギャップに対処するために、学生が複雑な物理実験を行うのをキャプチャする最初のビデオデータセットであるPhysLabを紹介します。
このデータセットには4つの代表的な実験が含まれており、多様な科学機器と豊富な人間と物体の相互作用(HOI)パターンが特徴である。
PhysLabは620の長ビデオで構成され、アクション認識、オブジェクト検出、HOI分析など、さまざまなビジョンタスクをサポートするマルチレベルアノテーションを提供する。
我々は,プロシージャ教育ビデオのパーシングにおける重要な課題を明らかにするために,強力なベースラインを確立し,広範囲な評価を行う。
私たちはPhysLabが、きめ細かいビジュアルパースを進化させ、インテリジェントな教室システムを促進し、コンピュータビジョンと教育技術との緊密な統合を促進するための貴重なリソースになることを期待しています。
データセットと評価ツールキットはhttps://github.com/ZMH-SDUST/PhysLabで公開されている。
関連論文リスト
- SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [89.48883747910448]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。
このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。
最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文 参考訳(メタデータ) (2025-05-25T11:28:34Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Augmented Physics: Creating Interactive and Embedded Physics Simulations from Static Textbook Diagrams [10.883862721068223]
静的教科書図から組込みインタラクティブな物理シミュレーションを作成するための機械学習統合オーサリングツールであるAugmented Physicsを紹介した。
本システムでは,物理教科書から図表を半自動抽出し,抽出した内容に基づいてインタラクティブなシミュレーションを生成する。
論文 参考訳(メタデータ) (2024-05-28T21:45:20Z) - TPA-Net: Generate A Dataset for Text to Physics-based Animation [27.544423833402572]
本稿では,多数のマルチモーダル3Dテキスト・ツー・ビデオ・シミュレーション(T2V/S)データとのギャップを狭めるために,自律データ生成手法とデータセットを提案する。
我々は, 弾性変形, 材料破壊, 衝突, 乱流など, 様々なシナリオをシミュレートするために, 最先端の物理シミュレーション手法を利用する。
高品質なマルチビューレンダリングビデオは、T2V、Neural Radiance Fields (NeRF)、その他のコミュニティの利益のために提供されている。
論文 参考訳(メタデータ) (2022-11-25T04:26:41Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。