論文の概要: MARVEL: A Multi Agent-based Research Validator and Enabler using Large Language Models
- arxiv url: http://arxiv.org/abs/2601.03436v1
- Date: Tue, 06 Jan 2026 21:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.081892
- Title: MARVEL: A Multi Agent-based Research Validator and Enabler using Large Language Models
- Title(参考訳): MARVEL:大規模言語モデルを用いたマルチエージェントベースリサーチバリデータとエンバータ
- Authors: Nikhil Mukund, Yifang Luo, Fan Zhang, Lisa Barsotti, Erik Katsavounidis,
- Abstract要約: 本稿では,ドメイン認識型質問応答のためのフレームワークMARVELについて紹介する。
MARVELは、簡単なクエリのための高速パスと、より意図的なDeepSearchモードを組み合わせることで、検索拡張生成とMonte Carlo Tree Searchを統合している。
我々はこの枠組みをレーザー干渉計重力波観測に関する重力波研究の文脈に応用した。
- 参考スコア(独自算出の注目度): 2.0725712989738994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MARVEL (https://ligogpt.mit.edu/marvel), a locally deployable, open-source framework for domain-aware question answering and assisted scientific research. It is designed to address the increasing demands of a digital assistant for scientific groups that can read highly technical data, cite precisely, and operate within authenticated networks. MARVEL combines a fast path for straightforward queries with a more deliberate DeepSearch mode that integrates retrieval-augmented generation and Monte Carlo Tree Search. It explores complementary subqueries, allocates more compute to promising branches, and maintains a global evidence ledger that preserves sources during drafting. We applied this framework in the context of gravitational-wave research related to the Laser Interferometer Gravitational-wave Observatory. Answers are grounded in a curated semantic index of research literature, doctoral theses, LIGO documents, and long-running detector electronic logbooks, with targeted web searches when appropriate. Because direct benchmarking against commercial LLMs cannot be performed on private data, we evaluated MARVEL on two publicly available surrogate datasets that capture comparable semantic and technical characteristics. On these benchmarks, MARVEL matches a GPT-4o mini baseline on literature-centric queries and substantially outperforms it on detector-operations content, where domain retrieval and guided reasoning are decisive. By making the complete framework and evaluation datasets openly available, we aim to provide a reproducible foundation for developing domain-specific scientific assistants.
- Abstract(参考訳): 我々は,ドメイン対応質問応答と科学的研究を支援するための,ローカルにデプロイ可能なオープンソースフレームワークMARVEL(https://ligogpt.mit.edu/marvel)を提案する。
高度な技術データを読み、正確に引用し、認証されたネットワーク内で操作できる科学グループのためのデジタルアシスタントの需要の増加に対応するように設計されている。
MARVELは、簡単なクエリのための高速パスと、より意図的なDeepSearchモードを組み合わせることで、検索拡張生成とMonte Carlo Tree Searchを統合している。
補完的なサブクエリを探索し、将来有望なブランチにより多くの計算を割り当て、ドラフト中にソースを保存するグローバルエビデンス台帳を維持している。
我々はこの枠組みをレーザー干渉計重力波観測に関する重力波研究の文脈に応用した。
回答は、研究文献、博士論文、LIGO文書、長期にわたる検知電子ログブックのキュレートされたセマンティックインデックスに基づいており、適切なときにターゲットWeb検索を行う。
商用LLMに対する直接ベンチマークはプライベートデータでは実行できないため、MARVELを2つの公開サロゲートデータセット上で評価し、比較可能な意味的特徴と技術的特徴を抽出した。
これらのベンチマークでは、MARVELは文学中心のクエリでGPT-4oのミニベースラインと一致し、ドメイン検索とガイド付き推論が決定的な検出操作内容で大幅に性能が向上する。
完全なフレームワークと評価データセットを公開することにより、我々は、ドメイン固有の科学アシスタントを開発するための再現可能な基盤を提供することを目指している。
関連論文リスト
- HeurekaBench: A Benchmarking Framework for AI Co-scientist [2.206319727896241]
HeurekaBenchは、実験データセットに対する探索的でオープンな研究質問を伴うベンチマークを作成するためのフレームワークである。
単細胞生物学のフレームワークをインスタンス化し、Sc-HeurekaBenchベンチマークを取得し、最先端の単細胞エージェントと比較する。
批判モジュールを追加することで、オープンソースLLMエージェントの不正な応答を最大22%改善し、クローズドソースエージェントとのギャップを埋めることができる。
論文 参考訳(メタデータ) (2026-01-04T22:16:42Z) - Hallucination-Resistant, Domain-Specific Research Assistant with Self-Evaluation and Vector-Grounded Retrieval [0.0]
RA-FSMはGPTベースの研究アシスタントであり、有限状態制御ループで生成をラップする。
コントローラはスコープ外クエリをフィルタリングし、応答可能性を評価し、質問を分解し、必要なときにのみ検索をトリガーする。
本稿では,フォトニクスのためのシステムを実装し,解析的推論,数値解析,方法論的批判,比較合成,事実抽出,アプリケーション設計の6つのカテゴリで評価する。
論文 参考訳(メタデータ) (2025-09-25T21:35:46Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - WebThinker: Empowering Large Reasoning Models with Deep Research Capability [109.8504165631888]
WebThinkerは、LEMがウェブを自律的に検索し、ウェブページをナビゲートし、推論プロセス中にレポートをドラフトすることを可能にするディープリサーチエージェントである。
また、Autonomous Think-Search-and-Draft戦略を採用しており、モデルが推論、情報収集、レポート作成をリアルタイムでシームレスにインターリーブすることができる。
我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文 参考訳(メタデータ) (2025-04-30T16:25:25Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [30.603079363363634]
本研究では,学術調査における大規模言語モデルの能力を評価するためのベンチマークであるResearchArenaを紹介する。
ResearchArenaは,(1)情報発見,関連文献の同定,(2)情報選択,論文の関連性および影響評価,(3)情報組織という3段階のプロセスのモデル化を行う。
これらの評価を支援するために,12Mのフルテキスト学術論文と7.9Kの調査論文のオフライン環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。