Fugu-MT 論文翻訳(概要): Detection and Measurement of Hailstones with Multimodal Large Language Models

論文の概要: Detection and Measurement of Hailstones with Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2510.06008v1
Date: Tue, 07 Oct 2025 15:07:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-08 17:57:08.301004
Title: Detection and Measurement of Hailstones with Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルによるハイルストーンの検出と測定
Authors: Moritz Alker, David C. Schedl, Andreas Stöckl,
Abstract要約: この研究は、オーストリアで記録された干し草の出来事をクラウドソースで474枚の画像から成っている。そこで本研究では,1段階と2段階のプロンプト戦略を用いた4つのモデルを比較した。以上の結果から,事前訓練したモデルはすでに画像から土石の直径を計測できる可能性が示唆された。
参考スコア（独自算出の注目度）: 2.5489046505746704
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study examines the use of social media and news images to detect and measure hailstones, utilizing pre-trained multimodal large language models. The dataset for this study comprises 474 crowdsourced images of hailstones from documented hail events in Austria, which occurred between January 2022 and September 2024. These hailstones have maximum diameters ranging from 2 to 11cm. We estimate the hail diameters and compare four different models utilizing one-stage and two-stage prompting strategies. The latter utilizes additional size cues from reference objects, such as human hands, within the image. Our results show that pretrained models already have the potential to measure hailstone diameters from images with an average mean absolute error of 1.12cm for the best model. In comparison to a single-stage prompt, two-stage prompting improves the reliability of most models. Our study suggests that these off-the-shelf models, even without fine-tuning, can complement traditional hail sensors by extracting meaningful and spatially dense information from social media imagery, enabling faster and more detailed assessments of severe weather events. The automated real-time image harvesting from social media and other sources remains an open task, but it will make our approach directly applicable to future hail events.
Abstract（参考訳）: 本研究では,事前学習したマルチモーダル大言語モデルを用いて,ソーシャルメディアとニュース画像を用いて,土石の検出と測定を行う。本研究のデータセットは,2022年1月から2024年9月までにオーストリアで発生した土砂災害の資料から,474個の土砂岩をクラウドソーシングした画像からなる。これらの土石の最大径は2cmから11cmである。そこで本研究では,1段階と2段階のプロンプト戦略を用いた4つのモデルを比較した。後者は、画像内の人間の手のような参照対象から追加のサイズの手がかりを利用する。以上の結果から,事前訓練したモデルでは,最良モデルの平均絶対誤差1.12cmの画像から土石の直径を測定することが可能であることが示唆された。単段プロンプトと比較して、2段プロンプトはほとんどのモデルの信頼性を向上させる。本研究は,これらのオフザシェルフモデルは,微調整なしでもソーシャルメディア画像から有意義かつ空間的に密集した情報を抽出し,より高速かつ詳細な気象事象の評価を可能にすることによって,従来のヘイルセンサを補完することができることを示唆している。ソーシャルメディアなどのソースから得られるリアルタイム画像の自動抽出は、まだオープンな作業だが、われわれのアプローチを将来の干ばつのイベントに直接適用する。

関連論文リスト

DRAGON: A Large-Scale Dataset of Realistic Images Generated by Diffusion Models [48.347550000332866]
DRAGONは25の拡散モデルの画像からなる包括的なデータセットである。データセットには、多様な対象を表す多様な画像が含まれている。 DRAGONは、合成コンテンツの検出および属性技術の開発と評価において、法医学的なコミュニティを支援するように設計されている。
論文参考訳（メタデータ） (2025-05-16T13:50:34Z)
Depth Anything V2 [84.88796880335283]
V2は3つの重要なプラクティスを通じて、より微細でより堅牢な深度予測を生成する。すべてのラベル付き実像を合成画像に置き換え、教師モデルの容量を拡大し、大規模な擬似ラベル付き実像のブリッジを通じて生徒モデルを教える。その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。
論文参考訳（メタデータ） (2024-06-13T17:59:56Z)
Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文参考訳（メタデータ） (2024-05-31T12:20:02Z)
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文参考訳（メタデータ） (2024-03-12T00:02:03Z)
LiT Tuned Models for Efficient Species Detection [22.3395465641384]
本稿では,任意の微細な画像分類データセットを分散視覚言語事前学習に適用するための簡単な手法を提案する。 iNaturalist-2021データセットは、約270万のマクロ微生物の画像で構成されており、1万のクラスにまたがっている。我々のモデルは(ロック画像テキストチューニングと呼ばれる新しい手法を用いて訓練)、事前訓練された凍結された視覚表現を用いて、言語アライメントだけで強力な移動学習性能が得られることを証明している。
論文参考訳（メタデータ） (2023-02-12T20:36:55Z)
Implementing and Experimenting with Diffusion Models for Text-to-Image Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文参考訳（メタデータ） (2022-09-22T12:03:33Z)
On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。 ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文参考訳（メタデータ） (2022-06-09T17:58:24Z)
Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文参考訳（メタデータ） (2022-02-16T22:26:47Z)
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文参考訳（メタデータ） (2022-02-08T18:36:52Z)
SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文参考訳（メタデータ） (2021-06-21T13:55:57Z)
Predicting Livelihood Indicators from Community-Generated Street-Level Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文参考訳（メタデータ） (2020-06-15T18:12:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。