論文の概要: Detection and Measurement of Hailstones with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.06008v1
- Date: Tue, 07 Oct 2025 15:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.301004
- Title: Detection and Measurement of Hailstones with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルによるハイルストーンの検出と測定
- Authors: Moritz Alker, David C. Schedl, Andreas Stöckl,
- Abstract要約: この研究は、オーストリアで記録された干し草の出来事をクラウドソースで474枚の画像から成っている。
そこで本研究では,1段階と2段階のプロンプト戦略を用いた4つのモデルを比較した。
以上の結果から,事前訓練したモデルはすでに画像から土石の直径を計測できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.5489046505746704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines the use of social media and news images to detect and measure hailstones, utilizing pre-trained multimodal large language models. The dataset for this study comprises 474 crowdsourced images of hailstones from documented hail events in Austria, which occurred between January 2022 and September 2024. These hailstones have maximum diameters ranging from 2 to 11cm. We estimate the hail diameters and compare four different models utilizing one-stage and two-stage prompting strategies. The latter utilizes additional size cues from reference objects, such as human hands, within the image. Our results show that pretrained models already have the potential to measure hailstone diameters from images with an average mean absolute error of 1.12cm for the best model. In comparison to a single-stage prompt, two-stage prompting improves the reliability of most models. Our study suggests that these off-the-shelf models, even without fine-tuning, can complement traditional hail sensors by extracting meaningful and spatially dense information from social media imagery, enabling faster and more detailed assessments of severe weather events. The automated real-time image harvesting from social media and other sources remains an open task, but it will make our approach directly applicable to future hail events.
- Abstract(参考訳): 本研究では,事前学習したマルチモーダル大言語モデルを用いて,ソーシャルメディアとニュース画像を用いて,土石の検出と測定を行う。
本研究のデータセットは,2022年1月から2024年9月までにオーストリアで発生した土砂災害の資料から,474個の土砂岩をクラウドソーシングした画像からなる。
これらの土石の最大径は2cmから11cmである。
そこで本研究では,1段階と2段階のプロンプト戦略を用いた4つのモデルを比較した。
後者は、画像内の人間の手のような参照対象から追加のサイズの手がかりを利用する。
以上の結果から,事前訓練したモデルでは,最良モデルの平均絶対誤差1.12cmの画像から土石の直径を測定することが可能であることが示唆された。
単段プロンプトと比較して、2段プロンプトはほとんどのモデルの信頼性を向上させる。
本研究は,これらのオフザシェルフモデルは,微調整なしでもソーシャルメディア画像から有意義かつ空間的に密集した情報を抽出し,より高速かつ詳細な気象事象の評価を可能にすることによって,従来のヘイルセンサを補完することができることを示唆している。
ソーシャルメディアなどのソースから得られるリアルタイム画像の自動抽出は、まだオープンな作業だが、われわれのアプローチを将来の干ばつのイベントに直接適用する。
関連論文リスト
- DRAGON: A Large-Scale Dataset of Realistic Images Generated by Diffusion Models [48.347550000332866]
DRAGONは25の拡散モデルの画像からなる包括的なデータセットである。
データセットには、多様な対象を表す多様な画像が含まれている。
DRAGONは、合成コンテンツの検出および属性技術の開発と評価において、法医学的なコミュニティを支援するように設計されている。
論文 参考訳(メタデータ) (2025-05-16T13:50:34Z) - Depth Anything V2 [84.88796880335283]
V2は3つの重要なプラクティスを通じて、より微細でより堅牢な深度予測を生成する。
すべてのラベル付き実像を合成画像に置き換え、教師モデルの容量を拡大し、大規模な擬似ラベル付き実像のブリッジを通じて生徒モデルを教える。
その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。
論文 参考訳(メタデータ) (2024-06-13T17:59:56Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Predicting Livelihood Indicators from Community-Generated Street-Level
Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。
全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T18:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。