論文の概要: SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications
- arxiv url: http://arxiv.org/abs/2507.03578v1
- Date: Fri, 04 Jul 2025 13:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.787471
- Title: SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications
- Title(参考訳): SciVid: 科学応用におけるビデオモデルのクロスドメイン評価
- Authors: Yana Hasson, Pauline Luc, Liliane Momeni, Maks Ovsjanikov, Guillaume Le Moing, Alina Kuznetsova, Ira Ktena, Jennifer J. Sun, Skanda Koppula, Dilara Gokay, Joseph Heyward, Etienne Pot, Andrew Zisserman,
- Abstract要約: ビデオファウンデーションモデル(FM)は、汎用ドメインに依存しないアプローチとしてかなりの可能性を秘めている。
SciVidは、医療コンピュータビジョン、動物行動、天気予報の5つのタスクからなるベンチマークである。
簡単なトレーニング可能な読み出しモジュールを用いて6つの主要なViFMをSciVidに適用し、強力なベースラインを確立し、効果的な転送学習の可能性を示す。
- 参考スコア(独自算出の注目度): 63.92604046592333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been a proliferation of spatiotemporal foundation models in different scientific disciplines. While promising, these models are often domain-specific and are only assessed within the particular applications for which they are designed. Given that many tasks can be represented as video modeling problems, video foundation models (ViFMs) hold considerable promise as general-purpose domain-agnostic approaches. However, it is not known whether the knowledge acquired on large-scale but potentially out-of-domain data can be effectively transferred across diverse scientific disciplines, and if a single, pretrained ViFM can be competitive with domain-specific baselines. To address this, we introduce SciVid, a comprehensive benchmark comprising five *Sci*entific *Vid*eo tasks, across medical computer vision, animal behavior, and weather forecasting. We adapt six leading ViFMs to SciVid using simple trainable readout modules, establishing strong baselines and demonstrating the potential for effective transfer learning. Specifically, we show that state-of-the-art results can be obtained in several applications by leveraging the general-purpose representations from ViFM backbones. Furthermore, our results reveal the limitations of existing ViFMs, and highlight opportunities for the development of generalizable models for high-impact scientific applications. We release our code at https://github.com/google-deepmind/scivid to facilitate further research in the development of ViFMs.
- Abstract(参考訳): 近年,様々な科学分野において時空間モデルが普及している。
有望ではあるが、これらのモデルはドメイン固有であり、設計対象の特定のアプリケーション内でのみ評価される。
多くのタスクをビデオモデリング問題として表現できることを考えると、ビデオ基礎モデル(ViFM)は汎用ドメインに依存しないアプローチとしてかなりの可能性を秘めている。
しかし、大規模かつ潜在的にドメイン外のデータから得られた知識が、様々な科学分野に効果的に移行できるかどうかは不明であり、事前訓練された1つのViFMがドメイン固有のベースラインと競合できるかどうかは不明である。
SciVidは5つの*Sci*entific *Vid*eoタスクからなる総合的なベンチマークで、医療用コンピュータビジョン、動物行動、天気予報を網羅する。
簡単なトレーニング可能な読み出しモジュールを用いて6つの主要なViFMをSciVidに適用し、強力なベースラインを確立し、効果的な転送学習の可能性を示す。
具体的には、ViFMバックボーンの汎用表現を活用することにより、いくつかのアプリケーションで最先端の結果が得られることを示す。
さらに, 既存の ViFM の限界を明らかにし, 高インパクト科学応用のための一般化可能なモデル開発の可能性を明らかにする。
ViFMの開発におけるさらなる研究を促進するため、私たちはhttps://github.com/google-deepmind/scividでコードを公開しています。
関連論文リスト
- Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。
これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。
本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文 参考訳(メタデータ) (2025-03-03T22:42:00Z) - SciDFM: A Large Language Model with Mixture-of-Experts for Science [18.748699390397363]
我々は,SciDFMを紹介した。SciDFMは,スクラッチから訓練され,大学レベルの科学的推論を行うことができる。
ドメイン固有のデータベースのデータだけでなく、さまざまな分野の科学論文や書籍を含む大規模学習コーパスを収集する。
SciDFMはSciEvalやSciQなどの一般的な科学的ベンチマークにおいて高い性能を示し、類似サイズのモデル間のドメイン固有ベンチマークにおいてSOTA性能に達することを示す。
論文 参考訳(メタデータ) (2024-09-27T03:00:29Z) - Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。