論文の概要: Traceable by Design: An LLM Pipeline and Dashboard for EU Regulatory Consultation Analysis
- arxiv url: http://arxiv.org/abs/2605.30995v2
- Date: Wed, 03 Jun 2026 09:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.567243
- Title: Traceable by Design: An LLM Pipeline and Dashboard for EU Regulatory Consultation Analysis
- Title(参考訳): 設計によるトレーサブル:EU規制コンサルティング分析のためのLLMパイプラインとダッシュボード
- Authors: Thales Bertaglia, Haoyang Gui, Catalina Goanta, Gerasimos Spanakis,
- Abstract要約: 本稿では,規制コンサルテーションからのトピック抽出のためのエンドツーエンドのLLMパイプラインとインタラクティブダッシュボードを提案する。
システムは、生のPDFアタッチメントとWeb形式の応答を処理し、トピックアノテーションを抽出し、ソーステキストから冗長な引用で全ての抽出を土台とする。
パイプラインはドメインジェネリックで、新しいコンサルテーションに適応するには、即時更新と新しいデータセットが必要である。
- 参考スコア(独自算出の注目度): 8.960834830679246
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Public consultations generate large volumes of data in the form of stakeholder submissions that are practically unfeasible to analyse manually. We present an end-to-end LLM-based pipeline and interactive dashboard for structured topic extraction from regulatory consultation submissions, demonstrated on the European Commission's Digital Fairness Act (DFA) public call for evidence as a case study. The system processes raw PDF attachments and web-form responses, extracts topic annotations, and grounds every extraction in a verbatim quote from the source text. Applied to 4,322 DFA submissions, the pipeline produced 15,368 topic annotations supported by 20,951 verbatim evidence quotes. Three principles govern the proposed design: verbatim grounding, full traceability, and transparency by design. The dashboard exposes the full extraction dataset through five analytical views, from dataset-level topic overviews to individual paragraph drill-downs, with every result traceable to its source. Beyond the predefined DFA topic categories, the pipeline generated certain stakeholder concerns, such as Age Verification, Payment Processor Censorship, and Digital Ownership, that a fixed-taxonomy approach would have missed. The pipeline is domain-generic; adapting it to a new consultation requires only a prompt update and a new dataset. A live demo is available at https://dfa-dashboard.thalesbertaglia.com/. The code and processed data are publicly available at https://github.com/thalesbertaglia/dfa-dashboard.
- Abstract(参考訳): 公的協議は、利害関係者の提出という形で大量のデータを生成し、手動で分析することは事実上不可能である。
本稿では,欧州委員会デジタル公正法(DFA)の公募で実証された,規制協議提出書から構造化トピックを抽出するためのエンドツーエンドのLLMパイプラインとインタラクティブダッシュボードについて述べる。
システムは、生のPDFアタッチメントとWeb形式の応答を処理し、トピックアノテーションを抽出し、ソーステキストから冗長な引用で全ての抽出を土台とする。
4,322件のDFA提出書に適用されたパイプラインは、20,951件の口頭で支持された15,368件のトピックアノテーションを作成した。
3つの原則が提案された設計を支配している。
ダッシュボードは、データセットレベルのトピック概要から各段落のドリルダウンまでの5つの分析ビューを通じて、完全な抽出データセットを公開する。
事前に定義されたDFAトピックのカテゴリ以外にも、パイプラインは、年齢検証、支払いプロセスの検閲、デジタルオーナシップといった、一定の利害関係者の関心を生んだ。
パイプラインはドメインジェネリックで、新しいコンサルテーションに適応するには、即時更新と新しいデータセットが必要である。
ライブデモはhttps://dfa-dashboard.thalesbertaglia.com/で公開されている。
コードと処理されたデータはhttps://github.com/thalesbertaglia/dfa-dashboard.comで公開されている。
関連論文リスト
- ReviewGrounder: Improving Review Substantiveness with Rubric-Guided, Tool-Integrated Agents [50.27474750319121]
公式ガイドライン、論文の内容、人間によるレビューから派生した、紙固有のルーリックに従ってテキストをレビューする。
本稿では、公式ガイドライン、論文の内容、人手によるレビューに基づいて、レビューテキストを評価するベンチマークであるREVIEWBENCHを紹介する。
本稿では,レビューを起草段階と接地段階に分解するルーリック誘導ツール統合マルチエージェントフレームワークであるREVIEWGROUNDERを提案する。
論文 参考訳(メタデータ) (2026-04-15T16:33:04Z) - A2P-Vis: an Analyzer-to-Presenter Agentic Pipeline for Visual Insights Generation and Reporting [18.60614431401904]
A2P-Visは、生のデータセットを高品質なデータビジュアライゼーションレポートに変換する、2部構成のマルチエージェントパイプラインである。
Data Analyzerはプロファイリングを編成し、多様な視覚化方向を提案し、プロットコードを生成し、実行し、チェッカーで低品質のフィギュアをフィルタリングし、候補者の洞察を引き出す。
その後、プレゼンターはトピックを注文し、トップランクの洞察からグラフで構築された物語を作成し、正当化された遷移を書き、明確さと一貫性のために文書を改訂する。
論文 参考訳(メタデータ) (2025-12-26T18:02:12Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - LLM-Assisted Question-Answering on Technical Documents Using Structured Data-Aware Retrieval Augmented Generation [0.432776344138537]
大きな言語モデル(LLM)は自然言語の理解と生成を可能にする。
ファインチューニングは可能なソリューションのひとつだが、リソース集約であり、データ更新毎に繰り返す必要がある。
Retrieval-Augmented Generation (RAG)は、LLMが外部の知識ソースにアクセスできるようにすることにより、効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-29T08:22:03Z) - Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding [42.506971197471195]
ドキュメント解析のために約3.8Mの事前学習データペアで構成されるDocMark-Pileと、グラウンドド命令に従うための624kの微調整データアノテーションを備えたDocMark-Instructの2つのきめ細かい構造化データセットを紹介した。
提案手法は,様々なビジュアル文書理解ベンチマークにおいて,既存の最先端MLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-05-08T17:37:36Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - TL;DR Progress: Multi-faceted Literature Exploration in Text
Summarization [37.88261925867143]
本稿では,ニューラルテキスト要約に関する文献を探索する新たなツールであるTL;DR Progressについて述べる。
テキスト要約アプローチのための包括的なアノテーションスキームに基づいて、514の論文を整理する。
論文 参考訳(メタデータ) (2024-02-10T09:16:56Z) - Pipeline and Dataset Generation for Automated Fact-checking in Almost
Any Language [0.0]
本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。
パイプラインは,エビデンス検索とクレームの妥当性評価という,2つの主要なモジュールで構成されている。
チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータと微調整されたモデルにオープンアクセスを提供しています。
論文 参考訳(メタデータ) (2023-12-15T19:43:41Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。