論文の概要: STRUCTSENSE: A Task-Agnostic Agentic Framework for Structured Information Extraction with Human-In-The-Loop Evaluation and Benchmarking
- arxiv url: http://arxiv.org/abs/2507.03674v1
- Date: Fri, 04 Jul 2025 15:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.830605
- Title: STRUCTSENSE: A Task-Agnostic Agentic Framework for Structured Information Extraction with Human-In-The-Loop Evaluation and Benchmarking
- Title(参考訳): STRUCTSENSE:ヒューマン・イン・ザ・ループ評価とベンチマークによる構造化情報抽出のためのタスク非依存型エージェント・フレームワーク
- Authors: Tek Raj Chhetri, Yibei Chen, Puja Trivedi, Dorota Jarecka, Saif Haobsh, Patrick Ray, Lydia Ng, Satrajit S. Ghosh,
- Abstract要約: StructSenseは、大規模言語モデル上に構築された構造化情報抽出のためのモジュラーでタスクに依存しないオープンソースのフレームワークである。
複雑なドメインコンテンツを効果的にエンコードできるドメイン固有のシンボリック知識によって導かれる。
我々は、StructSenseがドメイン感度の限界とクロスタスクの一般化性の欠如を克服できることを実証した。
- 参考スコア(独自算出の注目度): 2.355572228890207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to extract structured information from unstructured sources-such as free-text documents and scientific literature-is critical for accelerating scientific discovery and knowledge synthesis. Large Language Models (LLMs) have demonstrated remarkable capabilities in various natural language processing tasks, including structured information extraction. However, their effectiveness often diminishes in specialized, domain-specific contexts that require nuanced understanding and expert-level domain knowledge. In addition, existing LLM-based approaches frequently exhibit poor transferability across tasks and domains, limiting their scalability and adaptability. To address these challenges, we introduce StructSense, a modular, task-agnostic, open-source framework for structured information extraction built on LLMs. StructSense is guided by domain-specific symbolic knowledge encoded in ontologies, enabling it to navigate complex domain content more effectively. It further incorporates agentic capabilities through self-evaluative judges that form a feedback loop for iterative refinement, and includes human-in-the-loop mechanisms to ensure quality and validation. We demonstrate that StructSense can overcome both the limitations of domain sensitivity and the lack of cross-task generalizability, as shown through its application to diverse neuroscience information extraction tasks.
- Abstract(参考訳): 自由テキスト文書や科学文献などの構造化されていない情報源から構造化された情報を抽出する能力は、科学的発見と知識合成の促進に不可欠である。
大規模言語モデル(LLM)は構造化情報抽出を含む様々な自然言語処理タスクにおいて顕著な機能を示した。
しかし、それらの効果はしばしば専門的なドメイン固有のコンテキストにおいて減少し、ニュアンスな理解と専門家レベルのドメイン知識を必要とします。
加えて、既存のLLMベースのアプローチでは、タスクやドメイン間でのトランスファービリティが低く、スケーラビリティと適応性が制限されることが多い。
これらの課題に対処するために、LLM上に構築された構造化情報抽出のためのモジュラーでタスクに依存しないオープンソースのフレームワークであるStructSenseを紹介した。
StructSenseは、オントロジーにエンコードされたドメイン固有のシンボル知識によってガイドされ、複雑なドメインコンテンツをより効率的にナビゲートすることができる。
さらに、反復的な改善のためのフィードバックループを形成する自己評価的な判断を通じてエージェント機能を取り入れ、品質とバリデーションを保証するためのヒューマン・イン・ザ・ループ機構も備えている。
我々は、StructSenseが、様々な神経科学情報抽出タスクに適用することで、ドメイン感度の限界とクロスタスクの一般化性の欠如を克服できることを実証した。
関連論文リスト
- Leveraging Large Language Models for Tacit Knowledge Discovery in Organizational Contexts [0.4499833362998487]
本稿では,従業員とのインタラクションを通じて,データセット記述を反復的に再構築するエージェントベースのフレームワークを提案する。
本研究の結果から, 自己批判的フィードバックスコアは外部文献評論家のスコアと強く相関し, 94.9%の完全知識リコールが達成された。
これらの知見は、エージェントが組織的な複雑さをナビゲートし、そうでなければアクセスできないような断片化された知識をキャプチャする能力を強調している。
論文 参考訳(メタデータ) (2025-07-04T21:09:32Z) - KnowCoder-V2: Deep Knowledge Analysis [64.63893361811968]
我々は、深い知識分析能力を持つ深層研究を支援するtextbfKnowledgeable textbfDeep textbfResearch (textbfKDR) フレームワークを提案する。
大規模なドメイン関連データをオフラインで体系的な知識にプリプロセスするために、独立した知識組織フェーズを導入する。
そして、オンラインの方法で複雑な知識計算を行うための、新たな推論ステップによって、ディープリサーチを拡張します。
論文 参考訳(メタデータ) (2025-06-07T18:01:25Z) - StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Pruning neural network models for gene regulatory dynamics using data and domain knowledge [24.670514977455202]
本稿では,モデルフィッティングにおけるドメイン固有構造情報を用いてネットワークプルーニングをガイドするフレームワークであるDASHを提案する。
DASHは、遺伝子相互作用パートナーに関する知識を用いて、一般的な刈り取り法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-03-05T23:02:55Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。