論文の概要: A Greek Government Decisions Dataset for Public-Sector Analysis and Insight
- arxiv url: http://arxiv.org/abs/2512.05647v2
- Date: Thu, 11 Dec 2025 11:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.093086
- Title: A Greek Government Decisions Dataset for Public-Sector Analysis and Insight
- Title(参考訳): ギリシャ政府による公共セクター分析とインサイトのためのデータセット決定
- Authors: Giorgos Antoniou, Giorgos Filandrianos, Aggelos Vlachos, Giorgos Stamou, Lampros Kollimenos, Konstantinos Skianis, Michalis Vazirgiannis,
- Abstract要約: 国家透明性プラットフォームであるDiavgeiaから派生した、オープンで機械で読めるギリシャ政府の決定コーパスを紹介します。
リソースは100万の意思決定からなり、PDFから抽出された高品質の原文を特徴付ける。
我々は定性的分析を行い、ボイラープレートパターンを探索し、検索強化世代(RAG)タスクを設計する。
- 参考スコア(独自算出の注目度): 22.427710366567812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an open, machine-readable corpus of Greek government decisions sourced from the national transparency platform Diavgeia. The resource comprises 1 million decisions, featuring and high-quality raw text extracted from PDFs. It is released with raw extracted text in Markdown format, alongside a fully reproducible extraction pipeline. Beyond the core dataset, we conduct qualitative analyses to explore boilerplate patterns and design a retrieval-augmented generation (RAG) task by formulating a set of representative questions, creating high-quality answers, and evaluating a baseline RAG system on its ability to retrieve and reason over public decisions. This evaluation demonstrates the potential of large-scale public-sector corpora to support advanced information access and transparency through structured retrieval and reasoning over governmental documents, and highlights how such a RAG pipeline could simulate a chat-based assistant capable of interactively answering questions about public decisions. Due to its scale, quality, and domain coverage, the corpus can also serve as high-value pre-training or fine-tuning material for new Language Models (LMs) and Large Language Models (LLMs) respectively, including specialized models for legal and governmental domains, and as a foundation for novel approaches in domain adaptation, knowledge-grounded generation, and explainable AI. Finally, we discuss limitations, outline future directions, and make both the data and the code accessible.
- Abstract(参考訳): 国家透明性プラットフォームであるDiavgeiaから派生した、オープンで機械で読めるギリシャ政府の決定コーパスを紹介します。
リソースは100万の意思決定からなり、PDFから抽出された高品質の原文を特徴付ける。
生のテキストをMarkdown形式で抽出し、完全に再現可能な抽出パイプラインとともにリリースする。
コアデータセットの他に、定性的な分析を行い、代表的質問の集合を定式化し、高品質な回答を作成し、ベースラインRAGシステムの評価を行い、公開決定を検索し、推論する能力を評価することで、ボイラープレートパターンを探索し、検索強化世代(RAG)タスクを設計する。
この評価は、構造化された検索と政府文書の推論を通じて、高度な情報アクセスと透明性をサポートするための大規模パブリックセクターコーパスの可能性を示し、そのようなRAGパイプラインが、公開決定に関する質問に対話的に答えられるチャットベースのアシスタントをシミュレートする方法について強調する。
その規模、品質、ドメインカバレッジのため、コーパスは新しい言語モデル(LM)と大規模言語モデル(LLM)の高価値な事前学習や微調整の材料としても機能し、法的なドメインや政府的なドメインの専門モデルや、ドメイン適応、知識ベースジェネレーション、説明可能なAIの新たなアプローチの基礎となる。
最後に、制約について議論し、今後の方向性を説明し、データとコードの両方をアクセス可能にする。
関連論文リスト
- OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - Transforming Sensitive Documents into Quantitative Data: An AI-Based Preprocessing Toolchain for Structured and Privacy-Conscious Analysis [0.0]
大規模分析は、機密性の高い個人識別可能な情報の存在によって妨げられる。
埋め込み型解析のためのテキストデータを作成するモジュラーツールチェーンを提案する。
スウェーデンの裁判所判決10,842件のコーパス上で,このツールチェーンを実証した。
論文 参考訳(メタデータ) (2025-07-11T11:58:36Z) - From Multimodal Perception to Strategic Reasoning: A Survey on AI-Generated Game Commentary [9.045787191833822]
本稿では,3つのコアコメンテータ(Live Observation, Strategic Analysis, Historical Recall)に焦点をあてた新しい分類法を提案する。
各種ゲームジャンルにおける最先端の手法,データセット,評価指標の詳細なレビューを行う。
論文 参考訳(メタデータ) (2025-06-17T07:04:51Z) - QuaLLM: An LLM-based Framework to Extract Quantitative Insights from Online Forums [10.684484559041284]
本研究は,オンラインフォーラム上でテキストデータから量的洞察を分析し,抽出する新しいフレームワークであるQuaLLMを紹介する。
このフレームワークを適用して、Redditの2つのライドシェアワーカーコミュニティからの100万以上のコメントを分析しました。
AIとアルゴリズムのプラットフォーム決定に関する重要な労働者の懸念を明らかにし、労働者の洞察に関する規制の要求に応えました。
論文 参考訳(メタデータ) (2024-05-08T18:20:03Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。