論文の概要: Augmenting representations with scientific papers
- arxiv url: http://arxiv.org/abs/2603.04516v1
- Date: Wed, 04 Mar 2026 19:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.932642
- Title: Augmenting representations with scientific papers
- Title(参考訳): 科学的論文による表現の増強
- Authors: Nicolò Oreste Pinciroli Vago, Rocco Di Tella, Carolina Cuesta-Lázaro, Michael J. Smith, Cecilia Garraffo, Rafael Martínez-Galarza,
- Abstract要約: 天文学者は、画像、スペクトル、時系列を含む膨大なマルチモーダルデータのリポジトリを取得した。
これらのデータソースは、体系的に統合されることはめったにない。
この研究は、X線スペクトルと科学文献から抽出された領域知識を整合させるために設計された対照的な学習フレームワークを導入する。
- 参考スコア(独自算出の注目度): 0.820984376071696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Astronomers have acquired vast repositories of multimodal data, including images, spectra, and time series, complemented by decades of literature that analyzes astrophysical sources. Still, these data sources are rarely systematically integrated. This work introduces a contrastive learning framework designed to align X-ray spectra with domain knowledge extracted from scientific literature, facilitating the development of shared multimodal representations. Establishing this connection is inherently complex, as scientific texts encompass a broader and more diverse physical context than spectra. We propose a contrastive pipeline that achieves a 20% Recall@1% when retrieving texts from spectra, proving that a meaningful alignment between these modalities is not only possible but capable of accelerating the interpretation of rare or poorly understood sources. Furthermore, the resulting shared latent space effectively encodes physically significant information. By fusing spectral and textual data, we improve the estimation of 20 physical variables by 16-18% over unimodal spectral baselines. Our results indicate that a Mixture of Experts (MoE) strategy, which leverages both unimodal and shared representations, yields superior performance. Finally, outlier analysis within the multimodal latent space identifies high-priority targets for follow-up investigation, including a candidate pulsating ULX (PULX) and a gravitational lens system. Importantly, this framework can be extended to other scientific domains where aligning observational data with existing literature is possible.
- Abstract(参考訳): 天文学者は、画像、スペクトル、時系列を含む膨大なマルチモーダルデータのリポジトリを取得し、天体物理学の情報源を分析する何十年もの文献によって補完されている。
しかし、これらのデータソースは体系的に統合されることはめったにない。
本研究は,X線スペクトルと科学文献から抽出した領域知識との整合性を図った対照的な学習フレームワークを導入し,共有マルチモーダル表現の開発を容易にする。
科学的テキストはスペクトルよりも広く多様な物理的文脈を包含しているため、この関係を確立することは本質的に複雑である。
スペクトルからテキストを取り出す際に20%のリコール@1%を達成するコントラストパイプラインを提案し、これらのモダリティ間の有意義なアライメントが可能であるだけでなく、希少または未理解のソースの解釈を加速できることを示した。
さらに、得られた共有潜在空間は、物理的に重要な情報を効果的に符号化する。
スペクトルデータとテキストデータを融合させることで,スペクトルベースラインに対して20の物理変数を16-18%精度で推定できる。
この結果から,一助表現と共有表現を併用したMixture of Experts (MoE) 戦略が,優れた性能を示すことが示された。
最後に、マルチモーダルラテント空間内の外れ値解析は、ULX (PULX) と重力レンズシステムを含む、フォローアップ調査のための高優先度ターゲットを特定する。
重要な点として、この枠組みは既存の文献と観測データの整合が可能である他の科学的領域にまで拡張することができる。
関連論文リスト
- Universal Spectral Tokenization via Self-Supervised Panchromatic Representation Learning [39.14992490784682]
連続した科学的データは、多くの解像度と領域にまたがり、それらを共通の表現に統一することは、科学の基礎モデルを開発するための重要なステップである。
ヘテロジニアススペクトルを自己監督的に学習する深層学習モデルを提案する。
初めて、単一のモデルが、解像度と領域をまたいだスペクトルデータを統一できることを実証した。
論文 参考訳(メタデータ) (2025-10-20T18:00:00Z) - Extracting latent representations from X-ray spectra. Classification, regression, and accretion signatures of Chandra sources [0.0]
本研究の目的は、深層学習を用いたチャンドラX線スペクトルのコンパクトで物理的に意味のある表現を開発することである。
変換器ベースのオートエンコーダを用いてX線スペクトルを圧縮する。
スペクトル再構成精度,クラスタリング性能,および物理量との相関から学習表現を評価する。
論文 参考訳(メタデータ) (2025-10-15T21:20:32Z) - How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - LUMIR: an LLM-Driven Unified Agent Framework for Multi-task Infrared Spectroscopy Reasoning [12.138903544219724]
本研究では,低データ条件下での正確な赤外分光分析を実現するためのフレームワークであるLUMIRを紹介する。
LUMIRは構造化文学知識ベース、自動前処理、特徴抽出、予測モデリングを統合パイプラインに統合する。
利用可能なミルク近赤外データセット、中国の薬草、貯蔵期間の異なるCitri Reticulatae Pericarpium(CRP)、産業排水CODデータセット、Tecator、Cornなど、さまざまなデータセットで検証された。
論文 参考訳(メタデータ) (2025-07-29T03:20:51Z) - Towards a Unified Textual Graph Framework for Spectral Reasoning via Physical and Chemical Information Fusion [44.90118820073463]
本稿では,先行知識グラフと大規模言語モデルを統合する,新しいマルチモーダルスペクトル分析フレームワークを提案する。
本手法は,物理スペクトル測定と化学構造セマンティクスを統一的なテクスチャグラフ形式で表現することで橋渡しする。
本フレームワークは,ノードレベル,エッジレベル,グラフレベルなど,複数のスペクトル分析タスクにおいて一貫したパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-21T16:58:30Z) - Spatial Knowledge Graph-Guided Multimodal Synthesis [78.11669780958657]
本稿では,空間知識グラフによって導かれる新しいマルチモーダル合成手法を提案する。
実験では、方向や距離を含む多様な空間知識から合成されたデータにより、MLLMの空間知覚と推論能力が著しく向上する。
知識に基づくデータ合成のアイデアが空間知性の発展を促進することを願っている。
論文 参考訳(メタデータ) (2025-05-28T17:50:21Z) - Universal Spectral Transfer with Physical Prior-Informed Deep Generative Learning [9.603403541272746]
本稿では、スペクトルシグネチャを生成するための新しい物理的事前情報深層生成モデルであるSpectroGenを紹介する。
結果,99%の相関と0.01の根平均二乗誤差が得られた基底真理スペクトルよりも優れた分解能を示した。
論文 参考訳(メタデータ) (2024-07-22T23:31:10Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet
Transmission Spectra [68.8204255655161]
我々は、通過する太陽系外惑星のスペクトルデータを解析するための教師なし手法に焦点をあてる。
スペクトルデータには、適切な低次元表現を要求する高い相関関係があることが示される。
主成分に基づく興味深い構造、すなわち、異なる化学状態に対応する明確に定義された分岐を明らかにする。
論文 参考訳(メタデータ) (2022-01-07T22:26:33Z) - Spectral Analysis Network for Deep Representation Learning and Image
Clustering [53.415803942270685]
本稿ではスペクトル分析に基づく教師なし深層表現学習のための新しいネットワーク構造を提案する。
パッチレベルで画像間の局所的な類似性を識別できるため、閉塞に対してより堅牢である。
クラスタリングに親しみやすい表現を学習し、データサンプル間の深い相関を明らかにすることができる。
論文 参考訳(メタデータ) (2020-09-11T05:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。