論文の概要: Encoder Fine-tuning with Stochastic Sampling Outperforms Open-weight GPT in Astronomy Knowledge Extraction
- arxiv url: http://arxiv.org/abs/2511.08204v1
- Date: Wed, 12 Nov 2025 01:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.694686
- Title: Encoder Fine-tuning with Stochastic Sampling Outperforms Open-weight GPT in Astronomy Knowledge Extraction
- Title(参考訳): 確率サンプリングによるエンコーダファインタニングによる天文学知識抽出におけるオープンウェイトGPTの性能向上
- Authors: Shivam Rawat, Lucie Flek, Akbar Karimi,
- Abstract要約: 本稿では,天文学記事から知識を抽出するエンコーダに基づくシステムを提案する。
我々のシステムは、単純で低コストな実装であるにもかかわらず、オープンウェイトGPTベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 11.478263835391433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific literature in astronomy is rapidly expanding, making it increasingly important to automate the extraction of key entities and contextual information from research papers. In this paper, we present an encoder-based system for extracting knowledge from astronomy articles. Our objective is to develop models capable of classifying telescope references, detecting auxiliary semantic attributes, and recognizing instrument mentions from textual content. To this end, we implement a multi-task transformer-based system built upon the SciBERT model and fine-tuned for astronomy corpora classification. To carry out the fine-tuning, we stochastically sample segments from the training data and use majority voting over the test segments at inference time. Our system, despite its simplicity and low-cost implementation, significantly outperforms the open-weight GPT baseline.
- Abstract(参考訳): 天文学における科学文献は急速に拡大しており、研究論文から重要な実体や文脈情報の抽出を自動化することがますます重要になっている。
本稿では,天文学記事から知識を抽出するエンコーダに基づくシステムを提案する。
本研究の目的は,望遠鏡の参照を分類し,補助的な意味的属性を検知し,文書の内容から機器の言及を認識できるモデルを開発することである。
そこで我々は,SciBERTモデルに基づくマルチタスクトランスフォーマーシステムを実装し,天文学のコーパス分類のための微調整を行う。
微調整を行うために、トレーニングデータからセグメントを統計的にサンプリングし、推論時にテストセグメントに対して多数決を行う。
我々のシステムは、単純で低コストな実装であるにもかかわらず、オープンウェイトGPTベースラインを著しく上回っている。
関連論文リスト
- Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning [61.73934102302588]
少数ショット学習は、限られたトレーニングサンプルで新しいクラスを分類するという課題に対処する。
本稿では,大規模マルチモーダルモデルから多様かつ相補的な知識を効果的に伝達する新しいフレームワーク,Synergistic Knowledge Transferを提案する。
単純な数ショットのビジョンエンコーダと組み合わせても、SynTransは現在の最先端手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-10-13T08:06:23Z) - AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy [39.94582666929051]
AstroVisBenchは天文学領域における科学計算と可視化の両方のための最初のベンチマークである。
本稿では,最先端言語モデルの評価を行い,天文学研究に有用なアシスタントとして携わる能力に大きなギャップがあることを示す。
論文 参考訳(メタデータ) (2025-05-26T21:49:18Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - ARFA: An Asymmetric Receptive Field Autoencoder Model for Spatiotemporal
Prediction [55.30913411696375]
本稿では,非対称な受容場オートエンコーダ (ARFA) モデルを提案する。
エンコーダでは,大域的時間的特徴抽出のための大規模なカーネルモジュールを提案し,デコーダでは局所的時間的再構成のための小さなカーネルモジュールを開発する。
降水予測のための大規模レーダエコーデータセットであるRainBenchを構築し,その領域における気象データの不足に対処する。
論文 参考訳(メタデータ) (2023-09-01T07:55:53Z) - A brief review of contrastive learning applied to astrophysics [0.0]
コントラスト学習(Contrastive Learning)は、多次元データセットから情報測定を抽出する自己教師型機械学習アルゴリズムである。
本稿では、コントラスト学習の背景にある主要な概念を要約し、天文学への最初の有望な応用についてレビューする。
論文 参考訳(メタデータ) (2023-06-08T19:56:32Z) - Advances on the classification of radio image cubes [4.443085464476228]
現代の電波望遠鏡は、Square Kilometre Array (SKA)のようなシステムのために、毎日エクサバイト規模のデータセットを生成する。
大量データセットは、発見につながる未知の、希少な天体物理学現象の源泉である。
近年、電波天文学における人工知能の利用に焦点を当てた科学出版物が急増している。
論文 参考訳(メタデータ) (2023-05-05T11:15:37Z) - Radio astronomical images object detection and segmentation: A benchmark
on deep learning methods [5.058069142315917]
本研究では,電波干渉計による天体画像に適用した,最も肯定的な深層学習手法の性能について検討し,自動音源検出の課題を解決する。
目標は、予測性能と計算効率の観点から既存の技術の概要を、彼らの研究に機械学習を使いたいと考える天体物理学コミュニティの科学者に提供することである。
論文 参考訳(メタデータ) (2023-03-08T10:55:24Z) - Improving Astronomical Time-series Classification via Data Augmentation
with Generative Adversarial Networks [1.2891210250935146]
本稿では,GAN(Generative Adrial Networks)に基づくデータ拡張手法を提案する。
変動星の分類精度は、合成データによるトレーニングや実データによるテストで著しく向上する。
論文 参考訳(メタデータ) (2022-05-13T16:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。