論文の概要: MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations
- arxiv url: http://arxiv.org/abs/2603.09800v1
- Date: Tue, 10 Mar 2026 15:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.428406
- Title: MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations
- Title(参考訳): MITRA:物理学コラボレーションにおける知識検索のためのAIアシスタント
- Authors: Abhishikth Mallampalli, Sridhara Dasu,
- Abstract要約: 大規模な科学的コラボレーションは、膨大な内部文書のコーパスを生み出している。
我々は、物理解析に関する特定の文脈対応の質問に答えるように設計された、レトリーバル拡張生成(RAG)ベースのシステムであるMITRAのプロトタイプを提案する。
MITRAは、内部データベースからの文書検索にSeleniumを使用した新しい自動パイプラインと、高忠実なテキスト抽出のためのレイアウト解析を備えたOCRを採用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale scientific collaborations, such as the Compact Muon Solenoid (CMS) at CERN, produce a vast and ever-growing corpus of internal documentation. Navigating this complex information landscape presents a significant challenge for both new and experienced researchers, hindering knowledge sharing and slowing down the pace of scientific discovery. To address this, we present a prototype of MITRA, a Retrieval-Augmented Generation (RAG) based system, designed to answer specific, context-aware questions about physics analyses. MITRA employs a novel, automated pipeline using Selenium for document retrieval from internal databases and Optical Character Recognition (OCR) with layout parsing for high-fidelity text extraction. Crucially, MITRA's entire framework, from the embedding model to the Large Language Model (LLM), is hosted on-premise, ensuring that sensitive collaboration data remains private. We introduce a two-tiered vector database architecture that first identifies the relevant analysis from abstracts before focusing on the full documentation, resolving potential ambiguities between different analyses. We demonstrate the prototype's superior retrieval performance against a standard keyword-based baseline on realistic queries and discuss future work towards developing a comprehensive research agent for large experimental collaborations.
- Abstract(参考訳): CERNのCompact Muon Solenoid (CMS)のような大規模な科学的コラボレーションは、膨大な内部文書のコーパスを生み出している。
この複雑な情報ランドスケープをナビゲートすることは、新しい研究者と経験豊富な研究者の両方にとって大きな課題となり、知識の共有を妨げ、科学的な発見のペースを遅くする。
そこで本稿では, 物理解析に関する特定の文脈を考慮した質問に答えるために, MITRA(Retrieval-Augmented Generation, Retrieval-Augmented Generation)ベースのシステム)のプロトタイプを提案する。
MITRAは、内部データベースからの文書検索にSeleniumを使用した新しい自動パイプラインと、高忠実なテキスト抽出のためのレイアウト解析を備えたOCRを採用している。
重要なのは、組み込みモデルからLarge Language Model (LLM)まで、MITRAの全フレームワークがオンプレミスでホストされており、機密性の高いコラボレーションデータが非公開であることを保証する。
本稿では,2階層のベクトルデータベースアーキテクチャについて紹介する。このアーキテクチャはまず抽象化から関連する解析を識別し,ドキュメント全体に集中して,異なる解析間の潜在的な曖昧さを解消する。
本稿では,現実的なクエリに基づく標準キーワードベースラインに対して,プロトタイプの優れた検索性能を示すとともに,大規模な実験コラボレーションのための総合的な研究エージェントの開発に向けた今後の課題について述べる。
関連論文リスト
- FROAV: A Framework for RAG Observation and Agent Verification - Lowering the Barrier to LLM Agent Research [0.5729426778193398]
本稿では,LLM(Large Language Models)エージェント研究を民主化する,オープンソースの研究プラットフォームであるFROAVを紹介する。
FROAVは、マルチステージのRetrieval-Augmented Generation (RAG)パイプラインと、厳格な"LLM-as-a-Judge"評価システムを実装している。
我々のフレームワークは、ノーコードワークフロー設計にn8n、フレキシブルバックエンドロジックにFastAPI、ヒューマン・イン・ザ・ループインタラクションにStreamlitを統合しています。
論文 参考訳(メタデータ) (2026-01-12T13:02:32Z) - MARVEL: A Multi Agent-based Research Validator and Enabler using Large Language Models [2.0725712989738994]
本稿では,ドメイン認識型質問応答のためのフレームワークMARVELについて紹介する。
MARVELは、簡単なクエリのための高速パスと、より意図的なDeepSearchモードを組み合わせることで、検索拡張生成とMonte Carlo Tree Searchを統合している。
我々はこの枠組みをレーザー干渉計重力波観測に関する重力波研究の文脈に応用した。
論文 参考訳(メタデータ) (2026-01-06T21:47:22Z) - Seismology modeling agent: A smart assistant for geophysical researchers [14.28965530601497]
本稿では,Large Language Models (LLM) を利用したインテリジェントな対話型ワークフローを提案する。
SPECFEMのための最初のモデルコンテキストプロトコル(MCP)サーバスイートを紹介する。
このフレームワークは、完全な自動実行とHuman-in-the-loopコラボレーションの両方をサポートする。
論文 参考訳(メタデータ) (2025-12-16T14:18:26Z) - Intelligent Scientific Literature Explorer using Machine Learning (ISLE) [0.797970449705065]
本稿では,大規模データ取得,ハイブリッド検索,セマンティックトピックモデリング,異種知識グラフ構築を組み合わせた科学文献探索システムを提案する。
提案するフレームワークは,AIによる科学的発見の基盤となる。
論文 参考訳(メタデータ) (2025-12-14T16:54:24Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - pyBibX -- A Python Library for Bibliometric and Scientometric Analysis
Powered with Artificial Intelligence Tools [0.0]
pyBibXは、Scopus、Web of Science、PubMedからソースされた生データファイルの総合的な書誌的および科学的な分析を行うために開発されたピソンライブラリである。
このライブラリは総合的なEDAを実行し、視覚的に魅力的な図形を通して結果を提示する。
埋め込み、トピックモデリング、テキスト要約、その他の一般的な言語処理タスクを含むAI機能を備えている。
論文 参考訳(メタデータ) (2023-04-27T20:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。