論文の概要: Radio Astronomy in the Era of Vision-Language Models: Prompt Sensitivity and Adaptation
- arxiv url: http://arxiv.org/abs/2509.02615v1
- Date: Sun, 31 Aug 2025 14:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.25967
- Title: Radio Astronomy in the Era of Vision-Language Models: Prompt Sensitivity and Adaptation
- Title(参考訳): 視覚・言語モデル時代の電波天文学:確率感度と適応
- Authors: Mariia Drozdova, Erica Lastufka, Vitaliy Kinakh, Taras Holotyak, Daniel Schaerer, Slava Voloshynovskiy,
- Abstract要約: VLM(Vision-Language Models)は、ドメイン間の推論が可能な汎用AIシステムである。
我々は、天体コーパスに曝露していないと推定される一般的なVLMが、電波銀河のモルフォロジーに基づく分類を行うことができるかどうかを評価する。
- 参考スコア(独自算出の注目度): 5.711705587813085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs), such as recent Qwen and Gemini models, are positioned as general-purpose AI systems capable of reasoning across domains. Yet their capabilities in scientific imaging, especially on unfamiliar and potentially previously unseen data distributions, remain poorly understood. In this work, we assess whether generic VLMs, presumed to lack exposure to astronomical corpora, can perform morphology-based classification of radio galaxies using the MiraBest FR-I/FR-II dataset. We explore prompting strategies using natural language and schematic diagrams, and, to the best of our knowledge, we are the first to introduce visual in-context examples within prompts in astronomy. Additionally, we evaluate lightweight supervised adaptation via LoRA fine-tuning. Our findings reveal three trends: (i) even prompt-based approaches can achieve good performance, suggesting that VLMs encode useful priors for unfamiliar scientific domains; (ii) however, outputs are highly unstable, i.e. varying sharply with superficial prompt changes such as layout, ordering, or decoding temperature, even when semantic content is held constant; and (iii) with just 15M trainable parameters and no astronomy-specific pretraining, fine-tuned Qwen-VL achieves near state-of-the-art performance (3% Error rate), rivaling domain-specific models. These results suggest that the apparent "reasoning" of VLMs often reflects prompt sensitivity rather than genuine inference, raising caution for their use in scientific domains. At the same time, with minimal adaptation, generic VLMs can rival specialized models, offering a promising but fragile tool for scientific discovery.
- Abstract(参考訳): 最近のQwenやGeminiモデルのようなVLM(Vision-Language Models)は、ドメイン間の推論が可能な汎用AIシステムとして位置づけられている。
しかし、科学的イメージングにおけるそれらの能力、特に不慣れで、以前は見つからなかったデータ分布についてはまだよく理解されていない。
本研究では、MiraBest FR-I/FR-IIデータセットを用いて、天体コーパスに曝露していないと推定される一般的なVLMが、電波銀河のモルフォロジーに基づく分類を行うことができるかどうかを評価する。
我々は、自然言語とスキーマ図を用いたプロンプト戦略を探求し、私たちの知る限り、天文学のプロンプトの中で視覚的なインコンテキストの例を紹介するのは初めてである。
さらに,LoRAファインチューニングによる軽量教師あり適応の評価を行った。
調査の結果,3つの傾向が明らかになった。
(i) プロンプトベースのアプローチであっても優れた性能を達成でき、VLMが不慣れな科学的分野の有用な事前情報を符号化していることを示唆する。
しかし、出力は非常に不安定であり、すなわち、セマンティックな内容が一定に保たれた場合でも、レイアウト、順序付け、復号温度などの表面的な急激な変化を伴う。
(iii) トレーニング可能なパラメータがわずか15Mであり、天文学特有の事前トレーニングがないため、微調整されたQwen-VLは最先端の性能(3%エラーレート)を達成し、ドメイン固有モデルと競合する。
これらの結果は、VLMの明らかな「推論」は、真の推論よりも迅速な感度を反映し、科学領域での使用に注意を喚起していることを示唆している。
同時に、最小限の適応で、汎用的なVLMは特殊なモデルと競合し、科学的な発見のための有望で脆弱なツールを提供する。
関連論文リスト
- Fine-Tuning Vision-Language Models for Neutrino Event Analysis in High-Energy Physics Experiments [41.33501105382656]
高エネルギー物理実験における画素検出器画像からのニュートリノ相互作用の分類のためのビジョン・ランゲージモデル(VLM)
我々は、NOvAやDUNEなどの実験で使用される確立されたCNNベースラインに対して、その性能をベンチマークし、分類精度、精度、リコール、AUC-ROCなどの指標を評価する。
以上の結果から,VLMはCNNの性能に適合するだけでなく,よりリッチな推論や,補助的なテキストやセマンティックコンテキストの統合も可能であることがわかった。
論文 参考訳(メタデータ) (2025-08-26T19:12:28Z) - SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications [63.92604046592333]
ビデオファウンデーションモデル(FM)は、汎用ドメインに依存しないアプローチとしてかなりの可能性を秘めている。
SciVidは、医療コンピュータビジョン、動物行動、天気予報の5つのタスクからなるベンチマークである。
簡単なトレーニング可能な読み出しモジュールを用いて6つの主要なViFMをSciVidに適用し、強力なベースラインを確立し、効果的な転送学習の可能性を示す。
論文 参考訳(メタデータ) (2025-07-04T13:48:12Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。
離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models [0.0]
VLM(Vision-Language Multimodal Models)は、天文学におけるゼロショット分類の可能性を提供する。
低表面輝度銀河と人工物のゼロショット分類のために, GPT-4o と LLaVA-NeXT の2つのモデルについて検討した。
自然言語により、これらのモデルがトレーニングや微調整を伴わずに、かなりの精度(典型的には80%以上)を達成したことが示される。
論文 参考訳(メタデータ) (2024-06-24T18:17:54Z) - Personalized Adapter for Large Meteorology Model on Devices: Towards Weather Foundation Models [36.229082478423585]
LM-Weatherは、事前訓練された言語モデル(PLM)を使用する一般的なアプローチである
PLMに軽量なパーソナライズドアダプタを導入し、気象パターンの認識に役立てる。
実験の結果、LM-Weatherは様々なタスクにおいて最先端の結果より優れていた。
論文 参考訳(メタデータ) (2024-05-24T15:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。