論文の概要: Radio Astronomy in the Era of Vision-Language Models: Prompt Sensitivity and Adaptation
- arxiv url: http://arxiv.org/abs/2509.02615v1
- Date: Sun, 31 Aug 2025 14:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.25967
- Title: Radio Astronomy in the Era of Vision-Language Models: Prompt Sensitivity and Adaptation
- Title(参考訳): 視覚・言語モデル時代の電波天文学:確率感度と適応
- Authors: Mariia Drozdova, Erica Lastufka, Vitaliy Kinakh, Taras Holotyak, Daniel Schaerer, Slava Voloshynovskiy,
- Abstract要約: VLM(Vision-Language Models)は、ドメイン間の推論が可能な汎用AIシステムである。
我々は、天体コーパスに曝露していないと推定される一般的なVLMが、電波銀河のモルフォロジーに基づく分類を行うことができるかどうかを評価する。
- 参考スコア(独自算出の注目度): 5.711705587813085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs), such as recent Qwen and Gemini models, are positioned as general-purpose AI systems capable of reasoning across domains. Yet their capabilities in scientific imaging, especially on unfamiliar and potentially previously unseen data distributions, remain poorly understood. In this work, we assess whether generic VLMs, presumed to lack exposure to astronomical corpora, can perform morphology-based classification of radio galaxies using the MiraBest FR-I/FR-II dataset. We explore prompting strategies using natural language and schematic diagrams, and, to the best of our knowledge, we are the first to introduce visual in-context examples within prompts in astronomy. Additionally, we evaluate lightweight supervised adaptation via LoRA fine-tuning. Our findings reveal three trends: (i) even prompt-based approaches can achieve good performance, suggesting that VLMs encode useful priors for unfamiliar scientific domains; (ii) however, outputs are highly unstable, i.e. varying sharply with superficial prompt changes such as layout, ordering, or decoding temperature, even when semantic content is held constant; and (iii) with just 15M trainable parameters and no astronomy-specific pretraining, fine-tuned Qwen-VL achieves near state-of-the-art performance (3% Error rate), rivaling domain-specific models. These results suggest that the apparent "reasoning" of VLMs often reflects prompt sensitivity rather than genuine inference, raising caution for their use in scientific domains. At the same time, with minimal adaptation, generic VLMs can rival specialized models, offering a promising but fragile tool for scientific discovery.
- Abstract(参考訳): 最近のQwenやGeminiモデルのようなVLM(Vision-Language Models)は、ドメイン間の推論が可能な汎用AIシステムとして位置づけられている。
しかし、科学的イメージングにおけるそれらの能力、特に不慣れで、以前は見つからなかったデータ分布についてはまだよく理解されていない。
本研究では、MiraBest FR-I/FR-IIデータセットを用いて、天体コーパスに曝露していないと推定される一般的なVLMが、電波銀河のモルフォロジーに基づく分類を行うことができるかどうかを評価する。
我々は、自然言語とスキーマ図を用いたプロンプト戦略を探求し、私たちの知る限り、天文学のプロンプトの中で視覚的なインコンテキストの例を紹介するのは初めてである。
さらに,LoRAファインチューニングによる軽量教師あり適応の評価を行った。
調査の結果,3つの傾向が明らかになった。
(i) プロンプトベースのアプローチであっても優れた性能を達成でき、VLMが不慣れな科学的分野の有用な事前情報を符号化していることを示唆する。
しかし、出力は非常に不安定であり、すなわち、セマンティックな内容が一定に保たれた場合でも、レイアウト、順序付け、復号温度などの表面的な急激な変化を伴う。
(iii) トレーニング可能なパラメータがわずか15Mであり、天文学特有の事前トレーニングがないため、微調整されたQwen-VLは最先端の性能(3%エラーレート)を達成し、ドメイン固有モデルと競合する。
これらの結果は、VLMの明らかな「推論」は、真の推論よりも迅速な感度を反映し、科学領域での使用に注意を喚起していることを示唆している。
同時に、最小限の適応で、汎用的なVLMは特殊なモデルと競合し、科学的な発見のための有望で脆弱なツールを提供する。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Life, Machine Learning, and the Search for Habitability: Predicting Biosignature Fluxes for the Habitable Worlds Observatory [0.0]
我々は、外惑星反射光スペクトルから生体信号種を予測するために設計された2つの先進的な機械学習アーキテクチャを導入する。
両モデルとも、幅広い外惑星条件にまたがる拡張データセットにおいて、比較可能な高い予測精度を達成できることを実証した。
論文 参考訳(メタデータ) (2026-01-18T19:43:48Z) - Simulation-Based Pretraining and Domain Adaptation for Astronomical Time Series with Minimal Labeled Data [0.12744523252873352]
本稿では,実観測からラベル付きサンプルの必要性を大幅に低減し,シミュレーションを活用する事前学習手法を提案する。
我々のモデルは、複数の天文学調査(ZTFとLSST)のシミュレーションデータに基づいて訓練され、下流のタスクに効率的に移行する一般化可能な表現を学習する。
注目すべきは、既存の望遠鏡(ZTF)データのみをトレーニングすると、将来の望遠鏡(LSST)シミュレーションに匹敵する性能を達成できる、効果的なゼロショット転送能力を示すことだ。
論文 参考訳(メタデータ) (2025-10-14T20:07:14Z) - Textual interpretation of transient image classifications from large language models [0.0]
大規模言語モデル(LLM)は、3つの光過渡的なサーベイデータセット上での畳み込みニューラルネットワークのパフォーマンスレベルにアプローチすることができる。
GoogleのLLMであるGeminiは、さまざまな解像度とピクセルスケールにまたがるデータセットの平均精度を93%達成している。
論文 参考訳(メタデータ) (2025-10-08T12:12:46Z) - Fine-Tuning Vision-Language Models for Neutrino Event Analysis in High-Energy Physics Experiments [41.33501105382656]
高エネルギー物理実験における画素検出器画像からのニュートリノ相互作用の分類のためのビジョン・ランゲージモデル(VLM)
我々は、NOvAやDUNEなどの実験で使用される確立されたCNNベースラインに対して、その性能をベンチマークし、分類精度、精度、リコール、AUC-ROCなどの指標を評価する。
以上の結果から,VLMはCNNの性能に適合するだけでなく,よりリッチな推論や,補助的なテキストやセマンティックコンテキストの統合も可能であることがわかった。
論文 参考訳(メタデータ) (2025-08-26T19:12:28Z) - SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications [63.92604046592333]
ビデオファウンデーションモデル(FM)は、汎用ドメインに依存しないアプローチとしてかなりの可能性を秘めている。
SciVidは、医療コンピュータビジョン、動物行動、天気予報の5つのタスクからなるベンチマークである。
簡単なトレーニング可能な読み出しモジュールを用いて6つの主要なViFMをSciVidに適用し、強力なベースラインを確立し、効果的な転送学習の可能性を示す。
論文 参考訳(メタデータ) (2025-07-04T13:48:12Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。
離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models [0.0]
VLM(Vision-Language Multimodal Models)は、天文学におけるゼロショット分類の可能性を提供する。
低表面輝度銀河と人工物のゼロショット分類のために, GPT-4o と LLaVA-NeXT の2つのモデルについて検討した。
自然言語により、これらのモデルがトレーニングや微調整を伴わずに、かなりの精度(典型的には80%以上)を達成したことが示される。
論文 参考訳(メタデータ) (2024-06-24T18:17:54Z) - Personalized Adapter for Large Meteorology Model on Devices: Towards Weather Foundation Models [36.229082478423585]
LM-Weatherは、事前訓練された言語モデル(PLM)を使用する一般的なアプローチである
PLMに軽量なパーソナライズドアダプタを導入し、気象パターンの認識に役立てる。
実験の結果、LM-Weatherは様々なタスクにおいて最先端の結果より優れていた。
論文 参考訳(メタデータ) (2024-05-24T15:25:09Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。