論文の概要: ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery
- arxiv url: http://arxiv.org/abs/2601.14176v1
- Date: Tue, 20 Jan 2026 17:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.432181
- Title: ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery
- Title(参考訳): ReSearch:地球科学データ発見のためのマルチステージ機械学習フレームワーク
- Authors: Youran Sun, Yixin Wen, Haizhao Yang,
- Abstract要約: 我々は,地球科学データ発見を定式化した多段階推論型検索フレームワークであるtextbfReSearchを紹介した。
ReSearchは、語彙検索、セマンティック埋め込み、省略拡張、および統合アーキテクチャ内での大規模言語モデルの再配置を統合している。
実験によると、ReSearchはベースラインメソッドよりもリコールとランキングのパフォーマンスを継続的に改善している。
- 参考スコア(独自算出の注目度): 6.780086370528623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of Earth Science data from satellite observations, reanalysis products, and numerical simulations has created a critical bottleneck in scientific discovery, namely identifying relevant datasets for a given research objective. Existing discovery systems are primarily retrieval-centric and struggle to bridge the gap between high-level scientific intent and heterogeneous metadata at scale. We introduce \textbf{ReSearch}, a multi-stage, reasoning-enhanced search framework that formulates Earth Science data discovery as an iterative process of intent interpretation, high-recall retrieval, and context-aware ranking. ReSearch integrates lexical search, semantic embeddings, abbreviation expansion, and large language model reranking within a unified architecture that explicitly separates recall and precision objectives. To enable realistic evaluation, we construct a literature-grounded benchmark by aligning natural language intent with datasets cited in peer-reviewed Earth Science studies. Experiments demonstrate that ReSearch consistently improves recall and ranking performance over baseline methods, particularly for task-based queries expressing abstract scientific goals. These results underscore the importance of intent-aware, multi-stage search as a foundational capability for reproducible and scalable Earth Science research.
- Abstract(参考訳): 衛星観測、再分析製品、数値シミュレーションによる地球科学データの急速な拡大は、科学的な発見において重要なボトルネックを生み出した。
既存の発見システムは、主に検索中心であり、高レベルの科学的意図と大規模な異種メタデータの間のギャップを埋めるのに苦労している。
我々は,地球科学のデータ発見を意図的解釈,ハイリコール検索,文脈対応ランキングの反復的プロセスとして定式化する多段階推論型検索フレームワークである「textbf{ReSearch}」を紹介した。
ReSearchは、語彙検索、セマンティック埋め込み、省略拡張、および大きな言語モデルを統合アーキテクチャに統合し、リコールと精度の目標を明確に分離する。
現実的な評価を実現するため,本論文では,自然言語の意図をピアレビューされた地球科学研究に引用されたデータセットと整合させることにより,文献的評価のベンチマークを構築した。
実験によると、ReSearchは、特に抽象的な科学的目標を表すタスクベースのクエリにおいて、ベースラインメソッドよりもリコールとランキングのパフォーマンスを一貫して改善している。
これらの結果は、再現可能でスケーラブルな地球科学研究の基礎的能力としての意図認識多段階探索の重要性を浮き彫りにした。
関連論文リスト
- Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts [0.0]
本稿では,学術論文の引用文脈からデータセットを抽出する文献駆動フレームワークを提案する。
提案手法は,大規模引用コンテキスト抽出,スキーマ誘導型データセット認識,証明保存エンティティ解決を併用する。
コード、評価データセット、結果はGitHubで公開しています。
論文 参考訳(メタデータ) (2026-01-08T16:46:06Z) - Intelligent Scientific Literature Explorer using Machine Learning (ISLE) [0.797970449705065]
本稿では,大規模データ取得,ハイブリッド検索,セマンティックトピックモデリング,異種知識グラフ構築を組み合わせた科学文献探索システムを提案する。
提案するフレームワークは,AIによる科学的発見の基盤となる。
論文 参考訳(メタデータ) (2025-12-14T16:54:24Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - SciTopic: Enhancing Topic Discovery in Scientific Literature through Advanced LLM [19.949137890090814]
本稿では,大規模言語モデル(LLM)によって強化された高度なトピック発見手法を提案する。
具体的には、メタデータ、タイトル、要約を含む科学出版物からコンテンツをキャプチャするテキストエンコーダを構築する。
次に,LLMによって導かれるエントロピーに基づくサンプリングと三重項タスクを統合した空間最適化モジュールを構築する。
3つの実世界のデータセットで実施された実験は、SciTopicが最先端(SOTA)の科学的トピック発見方法より優れていることを示した。
論文 参考訳(メタデータ) (2025-08-28T07:55:06Z) - How good are LLMs at Retrieving Documents in a Specific Domain? [3.282961543904818]
本稿では,ドメイン固有の評価データセットをキュレートして検索システムの性能を解析する自動手法を提案する。
本研究では,Large Language Models (LLMs) を用いたRAG(Retrieval of Augmented Generation)を組み込んで,自然言語クエリを用いた環境領域データの高品質な検索を行う。
論文 参考訳(メタデータ) (2025-08-25T19:47:21Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - ScIRGen: Synthesize Realistic and Large-Scale RAG Dataset for Scientific Research [15.983924435685553]
我々は科学的なQAと検索のためのデータセット生成フレームワークであるScrirGenを開発した。
私たちはこれを使って、現実的なクエリ、データセット、論文を備えた大規模科学的検索強化世代(RAG)データセットを作成します。
論文 参考訳(メタデータ) (2025-06-09T11:47:13Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。