論文の概要: AstroLLaVA: towards the unification of astronomical data and natural language
- arxiv url: http://arxiv.org/abs/2504.08583v1
- Date: Fri, 11 Apr 2025 14:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:17:42.793999
- Title: AstroLLaVA: towards the unification of astronomical data and natural language
- Title(参考訳): AstroLLaVA:天文学データと自然言語の統合に向けて
- Authors: Sharaf Zaman, Michael J. Smith, Pranav Khetarpal, Rishabh Chakrabarty, Michele Ginolfi, Marc Huertas-Company, Maja Jabłońska, Sandor Kruk, Matthieu Le Lain, Sergio José Rodríguez Méndez, Dimitrios Tanoglidis,
- Abstract要約: 本稿では,天文学の視覚言語モデルであるAstroLLaVAについて紹介する。
我々の2段階の微調整プロセスは、天文学領域における画像キャプションと視覚的質問応答の両方にモデルを適応させる。
AstroLLaVAのパフォーマンスを、天文学的な視覚的質問応答ベンチマークで実証し、モデルの重み付け、コード、トレーニングセットをリリースして、さらなるオープンソース作業を促進します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present AstroLLaVA, a vision language model for astronomy that enables interaction with astronomical imagery through natural dialogue. By fine-tuning the LLaVA model on a diverse dataset of $\sim$30k images with captions and question-answer pairs sourced from NASA's `Astronomy Picture of the Day', the European Southern Observatory, and the NASA/ESA Hubble Space Telescope, we create a model capable of answering open-ended questions about astronomical concepts depicted visually. Our two-stage fine-tuning process adapts the model to both image captioning and visual question answering in the astronomy domain. We demonstrate AstroLLaVA's performance on an astronomical visual question answering benchmark and release the model weights, code, and training set to encourage further open source work in this space. Finally, we suggest a roadmap towards general astronomical data alignment with pre-trained language models, and provide an open space for collaboration towards this end for interested researchers.
- Abstract(参考訳): 本稿では,天文学の視覚言語モデルであるAstroLLaVAについて紹介する。
LLaVAモデルを、NASAの"Astronomy Picture of the Day"、欧州南天天文台、NASA/ESAハッブル宇宙望遠鏡から得られたキャプションと質問応答対を備えた$$30kの画像の多様なデータセットで微調整することにより、視覚的に描かれた天文学的概念に関するオープンな疑問に答えることのできるモデルを作成する。
我々の2段階の微調整プロセスは、天文学領域における画像キャプションと視覚的質問応答の両方にモデルを適応させる。
AstroLLaVAのパフォーマンスを、天文学的な視覚的質問応答ベンチマークで実証し、モデルウェイト、コード、トレーニングセットをリリースして、この分野におけるさらなるオープンソース作業を促進します。
最後に、事前訓練された言語モデルとの一般的な天文学的データアライメントに向けたロードマップを提案し、興味のある研究者のために、この目的に向けての協調のためのオープンスペースを提供する。
関連論文リスト
- At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models [0.0]
VLM(Vision-Language Multimodal Models)は、天文学におけるゼロショット分類の可能性を提供する。
低表面輝度銀河と人工物のゼロショット分類のために, GPT-4o と LLaVA-NeXT の2つのモデルについて検討した。
自然言語により、これらのモデルがトレーニングや微調整を伴わずに、かなりの精度(典型的には80%以上)を達成したことが示される。
論文 参考訳(メタデータ) (2024-06-24T18:17:54Z) - PAPERCLIP: Associating Astronomical Observations and Natural Language with Multi-Modal Models [0.3840425533789961]
本稿では,望遠鏡が撮影した天体観測と自然言語をニューラルネットワークモデルを用いて関連付ける手法を提案する。
モデルは、事前訓練されたContrastive Language-Image Pre-training (CLIP)モデルから微調整される。
ハッブル宇宙望遠鏡(HST)の観測例を用いて、微調整されたモデルが観察と自然言語の間の有意義な共同表現を具現化していることを示す。
論文 参考訳(メタデータ) (2024-03-13T18:00:00Z) - Astronomical Images Quality Assessment with Automated Machine Learning [0.0]
電子的に補助された天文学は、直接観測によって見えないであろう天体の視界を表示するために、望遠鏡にデジタルカメラを結合して深宇宙画像を取得することで構成される。
このプラクティスは大量のデータを生成し、観察セッション後に専用の画像編集ソフトウェアで拡張することができる。
本研究では,画像品質評価が天文学的画像の自動評価にどのように役立つかを示すとともに,自動機械学習を用いて専用モデルを開発する。
論文 参考訳(メタデータ) (2023-11-17T16:14:11Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - A Comparative Study on Generative Models for High Resolution Solar
Observation Imaging [59.372588316558826]
本研究は、観測された太陽活動状態の背後にあるデータ分布を正確に捉えるために、現在の最先端生成モデルの能力について検討する。
スーパーコンピュータ上での分散トレーニングを用いて、人間の専門家が区別できない高品質なサンプルを生成する、最大1024x1024解像度の生成モデルを訓練することができる。
論文 参考訳(メタデータ) (2023-04-14T14:40:32Z) - Improving astroBERT using Semantic Textual Similarity [0.785116730789274]
AstroBERTは、NASAの天体物理学データシステム(ADS)の天文学論文で使われるテキストに合わせた機械学習言語モデルである。
AstroBERTは、天体物理学特有のタスクにおいて、既存の公開言語モデルよりもいかに改善されているかを示す。
我々は、ADSが科学論文のユニークな構造、引用グラフ、引用コンテキストを活用して、AstroBERTをさらに改善する計画について詳述する。
論文 参考訳(メタデータ) (2022-11-29T16:15:32Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z) - Partial-Attribution Instance Segmentation for Astronomical Source
Detection and Deblending [0.24920602678297968]
深層学習モデルに適した方法でソースの検出と検証を可能にする、Partial-Attribution Instancesと呼ばれる新しいアプローチを導入する。
提案手法の実証として,新しいニューラルネットワークの実装を提案する。
論文 参考訳(メタデータ) (2022-01-12T21:59:13Z) - Processing Images from Multiple IACTs in the TAIGA Experiment with
Convolutional Neural Networks [62.997667081978825]
我々は、畳み込みニューラルネットワーク(CNN)を用いて、TAIGA実験からモンテカルロシミュレーション画像を分析する。
この分析は、ガンマ線によるシャワーに対応する画像の選択と、ガンマ線のエネルギーを推定することを含む。
論文 参考訳(メタデータ) (2021-12-31T10:49:11Z) - First Full-Event Reconstruction from Imaging Atmospheric Cherenkov
Telescope Real Data with Deep Learning [55.41644538483948]
チェレンコフ望遠鏡アレイは、地上のガンマ線天文学の未来である。
地上で作られた最初のプロトタイプ望遠鏡であるLarge Size Telescope 1は現在、最初の科学データを収集している。
我々は、深層畳み込みニューラルネットワークに基づくフルイベント再構築の開発とその実データへの適用を初めて提示する。
論文 参考訳(メタデータ) (2021-05-31T12:51:42Z) - Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。
本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文 参考訳(メタデータ) (2021-03-02T10:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。