論文の概要: Agentic Framework for Political Biography Extraction
- arxiv url: http://arxiv.org/abs/2603.18010v1
- Date: Mon, 23 Feb 2026 17:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.382814
- Title: Agentic Framework for Political Biography Extraction
- Title(参考訳): 政治伝記抽出のためのエージェント・フレームワーク
- Authors: Yifei Zhu, Songpo Yang, Jiangnan Zhu, Junyan Jiang,
- Abstract要約: 大規模言語モデル(LLM)を用いて,多次元のエリートバイオグラフィーの抽出を自動化する。
我々は,Web環境において,エージェントシステムは人間の集合的知性よりも,Webリソースからより多くの情報を合成することを示す。
- 参考スコア(独自算出の注目度): 9.184622839699152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The production of large-scale political datasets typically demands extracting structured facts from vast piles of unstructured documents or web sources, a task that traditionally relies on expensive human experts and remains prohibitively difficult to automate at scale. In this paper, we leverage Large Language Models (LLMs) to automate the extraction of multi-dimensional elite biographies, addressing a long-standing bottleneck in political science research. We propose a two-stage ``Synthesis-Coding'' framework for complex extraction task: an upstream synthesis stage that uses recursive agentic LLMs to search, filter, and curate biography from heterogeneous web sources, followed by a downstream coding stage that maps curated biography into structured dataframes. We validate this framework through three primary results. First, we demonstrate that, when given curated contexts, LLM coders match or outperform human experts in extraction accuracy. Second, we show that in web environments, the agentic system synthesizes more information from web resources than human collective intelligence (Wikipedia). Finally, we diagnosed that directly coding from long and multi-language corpora introduces bias that the synthesis stage can alleviate by curating evidence into signal-dense representations. By comprehensive evaluation, We provide a generalizable, scalable framework for building transparent and expansible large scale database in political science.
- Abstract(参考訳): 大規模な政治的データセットの作成は通常、大量の構造化されていない文書やWebソースから構造化された事実を抽出することを要求する。
本稿では,Large Language Models (LLMs) を用いて多次元のエリート伝記の抽出を自動化し,政治科学研究における長年のボトルネックに対処する。
複雑な抽出作業のための2段階の「合成符号化」フレームワークを提案する: 再帰的エージェント LLM を用いてヘテロジニアスなWebソースから伝記を検索、フィルタリング、キュレートする上流合成段階、次いで、キュレートされた伝記を構造化されたデータフレームにマッピングする下流符号化段階。
このフレームワークを3つの主要な結果によって検証する。
まず、キュレートされたコンテキストが与えられた場合、LLMコーダは、抽出精度において人間の専門家にマッチするか、優れているかを示す。
第2に,Web環境においてエージェントシステムは,人的集団知能(Wikipedia)よりも,Webリソースからより多くの情報を合成する。
最後に,多言語コーパスからの直接符号化は,信号密度表現にエビデンスをキュレートすることで,合成段階が緩和できるというバイアスをもたらすことを確認した。
包括的評価により、政治科学において透明で拡張可能な大規模データベースを構築するための、汎用的でスケーラブルなフレームワークを提供する。
関連論文リスト
- LeMat-Synth: a multi-modal toolbox to curate broad synthesis procedure databases from scientific literature [60.879220305044726]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いて合成手順と性能データを自動抽出・整理するマルチモーダルツールボックスを提案する。
LeMat-Synth (v 1.0):35種類の合成法と16種類の材料クラスにまたがる合成手順を含むデータセット。
我々は,新しいコーパスと合成ドメインへのコミュニティ主導の拡張をサポートするために設計された,モジュール形式のオープンソースライブラリをリリースする。
論文 参考訳(メタデータ) (2025-10-28T17:58:18Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Towards a Holistic and Automated Evaluation Framework for Multi-Level Comprehension of LLMs in Book-Length Contexts [19.640586886024952]
HAMLETは、大規模言語モデルの長文理解を評価するためのフレームワークである。
テキストをルート、ブランチ、リーフレベルで3段階のキーファクト階層に構造化する。
クエリ中心の要約を使用して、モデルがどのようにして各レベルで情報をリコールし、忠実に表現するかを評価する。
論文 参考訳(メタデータ) (2025-08-27T05:23:22Z) - WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization [68.46693401421923]
WebShaperは集合論を通してISタスクを体系的に定式化する。
WebShaperは、GAIAおよびWebWalkerQAベンチマーク上で、オープンソースISエージェントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-20T17:53:37Z) - Enhancing Abstractive Summarization of Scientific Papers Using Structure Information [6.414732533433283]
本稿では,学術論文における構造的機能の自動認識を活用する2段階の抽象的要約フレームワークを提案する。
第1段階では,多くの学術論文から章題を標準化し,構造関数認識のための大規模データセットを構築した。
第2段階では、Longformerを用いて、セクション間のリッチなコンテキスト関係をキャプチャし、コンテキスト対応の要約を生成する。
論文 参考訳(メタデータ) (2025-05-20T10:34:45Z) - Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models [17.169112112753513]
大規模言語モデル(LLM)は驚くほど成功したが、データ非効率のままである。
文書内コンテンツへの事前学習を継続する既存の合成データ生成手法
本稿では,クロスドキュメント・ナレッジ・アソシエーションを組み込んだ合成データ生成フレームワークであるSynthetic-on-Graph(SoG)を提案する。
論文 参考訳(メタデータ) (2025-05-02T03:40:39Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。