論文の概要: Nomad: Autonomous Exploration and Discovery
- arxiv url: http://arxiv.org/abs/2603.29353v2
- Date: Thu, 02 Apr 2026 07:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.260589
- Title: Nomad: Autonomous Exploration and Discovery
- Title(参考訳): Nomad: 自律的な探索と発見
- Authors: Bokang Jia, Samta Kamboj, Satheesh Katipomu, Seung Hun Han, Neha Sengupta, Andrew Jackson,
- Abstract要約: 自律的なデータ探索と洞察発見のためのシステムであるNomadを紹介する。
Nomadはベースラインよりも信頼性が高く高品質なレポートを生成する。
- 参考スコア(独自算出の注目度): 1.2717758452599093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Nomad, a system for autonomous data exploration and insight discovery. Given a corpus of documents, databases, or other data sources, users rarely know the full set of questions, hypotheses, or connections that could be explored. As a result, query-driven question answering and prompt-driven deep-research systems remain limited by human framing and often fail to cover the broader insight space. Nomad addresses this problem with an exploration-first architecture. It constructs an explicit Exploration Map over the domain and systematically traverses it to balance breadth and depth. It generates and selects hypotheses and investigates them with an explorer agent that can use document search, web search, and database tools. Candidate insights are then checked by an independent verifier before entering a reporting pipeline that produces cited reports and higher-level meta-reports. We also present a comprehensive evaluation framework for autonomous discovery systems that measures trustworthiness, report quality, and diversity. Using a corpus of selected UN and WHO reports, we show that Nomad produces more trustworthy and higher-quality reports than baselines, while also producing more diverse insights over several runs. Nomad is a step toward autonomous systems that not only answer user questions or conduct directed research, but also discover which questions, research directions, and insights are worth surfacing in the first place.
- Abstract(参考訳): 自律的なデータ探索と洞察発見のためのシステムであるNomadを紹介する。
ドキュメント、データベース、その他のデータソースのコーパスを考えると、ユーザーは探索可能な質問や仮説、コネクションの完全なセットを知ることはめったにない。
その結果、クエリ駆動の質問応答とプロンプト駆動のDeep-Researchシステムは、人間のフレーミングによって制限され、より広い洞察領域をカバーできないことが多い。
Nomadは探索優先アーキテクチャでこの問題に対処する。
ドメイン上の明示的な探索マップを構築し、それを体系的に横断して幅と深さのバランスをとる。
仮説を生成して選択し、ドキュメント検索、Web検索、データベースツールを使用するエクスプローラーエージェントでそれらを調査する。
候補となる洞察は、レポートパイプラインに入る前に独立した検証者によってチェックされ、引用されたレポートとより高いレベルのメタレポートを生成する。
また、信頼度、報告品質、多様性を測定する自律的な発見システムに対する総合的な評価フレームワークを提案する。
選択された国連とWHOの報告書のコーパスを用いて、ノマドはベースラインよりも信頼性が高く高品質なレポートを生成し、また複数のランについてより多様な洞察を得られることを示した。
Nomadは、ユーザーの質問に答えたり、指示された研究を行うだけでなく、どの質問や研究の方向性、洞察がそもそも見渡せる価値を見出す自律システムへの一歩だ。
関連論文リスト
- iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics [9.25340189071758]
iAgentBenchは,クロスソース・センスメイキングのための動的ODQAベンチマークである。
iAgentBenchは、現実世界の注目信号からシードトピックを抽出し、共通のユーザ意図パターンを使用して、ユーザライクな質問を構築する。
各インスタンスには、トレース可能なエビデンスと、汚染チェックをサポートする監査可能な中間アーティファクトが付属している。
論文 参考訳(メタデータ) (2026-03-04T22:40:08Z) - DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report [36.25273583677749]
我々は、ディープリサーチシステムを評価するための新しいベンチマークであるDeep Research Bench IIを紹介する。
各タスクに対して、システムは9430個の微細なバイナリルーブリックによって評価される長期の研究レポートを生成する必要がある。
我々は、Deep Research Bench IIにおける最先端のディープリサーチシステムを評価し、最強のモデルでさえ、ルーリックの50%以下を満たすことを発見した。
論文 参考訳(メタデータ) (2026-01-13T13:18:39Z) - MAVIS: A Benchmark for Multimodal Source Attribution in Long-form Visual Question Answering [44.41273615523289]
マルチモーダルソース属性システムを評価するための最初のベンチマークであるMAVISを紹介する。
我々のデータセットは157Kの視覚的QAインスタンスで構成されており、各回答にはマルチモーダル文書を参照したファクトレベルの引用が注釈付けされている。
本研究では,情報性,接地性,流感の3次元に沿って細粒度自動測定値を作成し,人間の判断と強い相関関係を示す。
論文 参考訳(メタデータ) (2025-11-15T10:14:59Z) - OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Multi-Grained Knowledge Retrieval for End-to-End Task-Oriented Dialog [42.088274728084265]
外部データベースから適切なドメイン知識を取得することは、エンドツーエンドのタスク指向の対話システムの中心にある。
既存のシステムの多くは、知識検索と応答生成を融合させ、参照応答からの直接監督でそれらを最適化している。
応答生成から知識検索を分離し,多粒度知識検索システムを提案する。
論文 参考訳(メタデータ) (2023-05-17T12:12:46Z) - Recent Advances in Automated Question Answering In Biomedical Domain [0.06922389632860546]
過去数十年間、知識の獲得が急増しており、その結果、バイオメディシン分野における新しい科学論文が指数関数的に増加してきた。
ドメインの専門家であっても、ドメイン内のすべての情報を追跡することは困難になっています。
商用検索エンジンの改善により、ユーザーはクエリーを入力し、クエリーに最も関連性の高いドキュメントの小さなセットを得ることができる。
これにより、ユーザが提供する自然言語の質問に対して、正確かつ正確な答えを見つけることを目的とした効率的なQAシステムの開発が必要になった。
論文 参考訳(メタデータ) (2021-11-10T20:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。