論文の概要: The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations
- arxiv url: http://arxiv.org/abs/2601.14944v1
- Date: Wed, 21 Jan 2026 12:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.357432
- Title: The GDN-CC Dataset: Automatic Corpus Clarification for AI-enhanced Democratic Citizen Consultations
- Title(参考訳): GDN-CCデータセット:AIを活用した民主市民協議のための自動コーパスの明確化
- Authors: Pierre-Antoine Lequeu, Léo Labat, Laurène Cave, Gaël Lejeune, François Yvon, Benjamin Piwowarski,
- Abstract要約: 本稿では,フランス・グランド・デバット・ナショナルへの1,231件のコントリビューションのデータセットであるGDN-CCについて述べる。
これらのアノテーションを再現する上で,微調整された小言語モデルとLLMの適合性や性能が一致していることを示し,意見クラスタリングタスクのユーザビリティを測定した。
GDN-CC-largeは、240kのコントリビューションの自動注釈付きコーパスで、これまでで最大の注釈付き民主的コンサルティングデータセットです。
- 参考スコア(独自算出の注目度): 20.654499689341446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are ubiquitous in modern NLP, and while their applicability extends to texts produced for democratic activities such as online deliberations or large-scale citizen consultations, ethical questions have been raised for their usage as analysis tools. We continue this line of research with two main goals: (a) to develop resources that can help standardize citizen contributions in public forums at the pragmatic level, and make them easier to use in topic modeling and political analysis; (b) to study how well this standardization can reliably be performed by small, open-weights LLMs, i.e. models that can be run locally and transparently with limited resources. Accordingly, we introduce Corpus Clarification as a preprocessing framework for large-scale consultation data that transforms noisy, multi-topic contributions into structured, self-contained argumentative units ready for downstream analysis. We present GDN-CC, a manually-curated dataset of 1,231 contributions to the French Grand Débat National, comprising 2,285 argumentative units annotated for argumentative structure and manually clarified. We then show that finetuned Small Language Models match or outperform LLMs on reproducing these annotations, and measure their usability for an opinion clustering task. We finally release GDN-CC-large, an automatically annotated corpus of 240k contributions, the largest annotated democratic consultation dataset to date.
- Abstract(参考訳): LLMは現代のNLPにおいてユビキタスであり、オンラインの審議や大規模な市民協議などの民主的活動のために作成されたテキストにも適用可能であるが、分析ツールとしての使用に関して倫理的な疑問が提起されている。
我々はこの研究のラインを2つの主要な目標で継続する。
(a)公共フォーラムにおける市民の貢献を実用レベルで標準化し、話題モデリング及び政治分析に利用しやすくする資源を開発すること。
(b) この標準化が、小規模でオープンウェイトなLCM(すなわち、限られたリソースでローカルかつ透過的に実行できるモデル)によって確実に実行可能であることを研究する。
そこで我々は,大規模コンサルテーションデータの事前処理フレームワークとしてCorpus Clarificationを導入し,ノイズの多いマルチトピックなコントリビューションを,下流分析に適した構造化された自己完結型議論ユニットに変換する。
提案するGDN-CCは,フランス・グランド・デバット・ナショナルに1,231件のコントリビューションを手作業で収集したデータセットである。
次に、これらのアノテーションの再現において、微調整された小言語モデルがLLMと一致しているか、あるいは性能が優れていることを示し、意見クラスタリングタスクのユーザビリティを計測する。
GDN-CC-largeは、240kのコントリビューションの自動注釈付きコーパスで、これまでで最大の注釈付き民主的コンサルティングデータセットです。
関連論文リスト
- Applying Large Language Models to Characterize Public Narratives [10.803799931002061]
本稿では,大規模言語モデル(LLM)を活用して,公開物語の質的アノテーションを自動化する新しい計算フレームワークを提案する。
我々の研究によると、LLMは8つの物語と14のコードで平均0.80のF1スコアを達成することができる。
論文 参考訳(メタデータ) (2025-11-17T15:41:55Z) - Assessing the Applicability of Natural Language Processing to Traditional Social Science Methodology: A Case Study in Identifying Strategic Signaling Patterns in Presidential Directives [0.0]
本研究では、自然言語処理(NLP)を用いて、より大規模な文書データから主要なトピックを抽出する方法について検討する。
アナリストとNLPはともに関連文書を特定し、大規模なコーパスを含む研究におけるNLPの潜在的有用性を示した。
また,本症例におけるNLPの有効性を評価するために,NLPと人為的ラベル付け結果の相違点を明らかにした。
論文 参考訳(メタデータ) (2025-11-12T20:59:34Z) - Toward Purpose-oriented Topic Model Evaluation enabled by Large Language Models [0.8193467416247519]
トピック品質の4つの重要な側面にまたがる9つのLarge Language Models(LLM)ベースのメトリクスを利用する目的指向評価フレームワークを導入する。
このフレームワークは、敵対的およびサンプリングベースのプロトコルを通じて検証され、ニュース記事、学術出版物、ソーシャルメディア投稿にまたがるデータセットに適用される。
論文 参考訳(メタデータ) (2025-09-08T18:46:08Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - From Citations to Criticality: Predicting Legal Decision Influence in the Multilingual Swiss Jurisprudence [16.529070321280447]
本稿では,ケース優先性を評価するための新たなリソースであるCriticality Predictionデータセットを紹介する。
本データセットは,(1)二段式LD-Label,(2)より粒度の細かいCitation-Label,(2)二段式LD-Label,(2)二段式LD-Labelを特徴とする。
より小型の微調整モデルと大型の言語モデルを含む複数の多言語モデルをゼロショット設定で評価する。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - A Survey on Knowledge Distillation of Large Language Models [99.11900233108487]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。
本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文 参考訳(メタデータ) (2024-02-20T16:17:37Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。