論文の概要: ParliaBench: An Evaluation and Benchmarking Framework for LLM-Generated Parliamentary Speech
- arxiv url: http://arxiv.org/abs/2511.08247v1
- Date: Wed, 12 Nov 2025 01:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.719512
- Title: ParliaBench: An Evaluation and Benchmarking Framework for LLM-Generated Parliamentary Speech
- Title(参考訳): ParliaBench: LLM生成議会演説の評価とベンチマークフレームワーク
- Authors: Marios Koniaris, Argyro Tsipi, Panayiotis Tsanakas,
- Abstract要約: 議会演説は言語的品質だけでなく、政治的信頼性とイデオロギー的な一貫性も要求する。
現在の言語モデルは議会の文脈に関する特別な訓練を欠いている。
本稿では,議会音声生成のベンチマークであるParliaBenchを紹介する。
- 参考スコア(独自算出の注目度): 0.2446948464551684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parliamentary speech generation presents specific challenges for large language models beyond standard text generation tasks. Unlike general text generation, parliamentary speeches require not only linguistic quality but also political authenticity and ideological consistency. Current language models lack specialized training for parliamentary contexts, and existing evaluation methods focus on standard NLP metrics rather than political authenticity. To address this, we present ParliaBench, a benchmark for parliamentary speech generation. We constructed a dataset of speeches from UK Parliament to enable systematic model training. We introduce an evaluation framework combining computational metrics with LLM-as-a-judge assessments for measuring generation quality across three dimensions: linguistic quality, semantic coherence, and political authenticity. We propose two novel embedding-based metrics, Political Spectrum Alignment and Party Alignment, to quantify ideological positioning. We fine-tuned five large language models (LLMs), generated 28k speeches, and evaluated them using our framework, comparing baseline and fine-tuned models. Results show that fine-tuning produces statistically significant improvements across the majority of metrics and our novel metrics demonstrate strong discriminative power for political dimensions.
- Abstract(参考訳): 議会音声生成は、標準テキスト生成タスクを超えて、大規模言語モデルの具体的な課題を提示する。
一般的なテキスト生成とは異なり、議会演説は言語的品質だけでなく、政治的信頼性とイデオロギー的一貫性も要求する。
現在の言語モデルは議会の文脈に関する専門的な訓練を欠いており、既存の評価手法は政治的信頼性よりも標準のNLPメトリクスに焦点を当てている。
そこで本稿では,議会音声生成のベンチマークであるParliaBenchを紹介する。
我々は,系統的なモデルトレーニングを実現するために,英国議会からスピーチのデータセットを構築した。
本稿では,LLM-as-a-judgeアセスメントと計算指標を組み合わせて,言語的品質,セマンティック・コヒーレンス,政治的信頼の3次元にわたる生成品質を測定するための評価フレームワークを提案する。
我々は、イデオロギー的位置決めを定量化するために、政治スペクトルアライメントと政党アライメントの2つの新しい埋め込みベースの指標を提案する。
我々は5つの大言語モデル(LLM)を微調整し、28kの音声を生成し、ベースラインモデルと微調整モデルを比較して評価した。
その結果, 微調整は統計学的に有意な改善をもたらすことが示され, 新たな指標は政治的側面に対する強力な差別力を示している。
関連論文リスト
- Beating Harmful Stereotypes Through Facts: RAG-based Counter-speech Generation [10.488285141408253]
本稿では,音声対音声生成を知識ワイドテキスト生成プロセスとしてモデル化する新しいフレームワークを提案する。
我々のフレームワークは、先進的なレトリーバル拡張生成(RAG)パイプラインを統合し、8つの主要なターゲットグループに対する信頼性の高い対音声の生成を保証する。
我々は、MultiTarget-CONANデータセットを使用して、標準メトリクスと人的評価の両方を通して、生成した反音声の品質を実証的に評価する。
論文 参考訳(メタデータ) (2025-10-14T09:20:01Z) - KOKKAI DOC: An LLM-driven framework for scaling parliamentary representatives [0.0]
本稿では,国会議員の政治問題スタンスを正確にスケールするLLM主導の枠組みを紹介する。
先進的な自然言語処理技術と大規模言語モデルを活用することにより,提案手法は従来のアプローチを洗練・強化する。
この枠組みには,(1)要約による議会演説の消音,よりクリーンで一貫した意見埋め込み,(2)議員の言論要約からの政治的論争の軸の自動抽出,(3)党の立場の経時的変化を追及するダイアクロニック分析,の3つの主要な革新が含まれている。
論文 参考訳(メタデータ) (2025-05-11T21:03:53Z) - Positioning Political Texts with Large Language Models by Asking and Averaging [0.0]
政治文書のツイートや文がどこにあるのかを LLM に問う。
専門家、クラウドワーカー、ロールコール投票によるテキストコーディングに基づく最高のLCMとベンチマークで得られた位置推定値の相関は、90を超えている。
方針空間やイデオロギー空間におけるテキストの配置は、たとえテキストが短く、異なる言語で書かれたとしても、高速で、費用効率が高く、信頼性が高く、再現可能である(オープンなLLMの場合)。
論文 参考訳(メタデータ) (2023-11-28T09:45:02Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - The ParlaSent Multilingual Training Dataset for Sentiment Identification in Parliamentary Proceedings [0.0]
そこで本論文では,感傷的に手動で注釈付けした7言語による文のトレーニングデータセットを提案する。
さらに、政治科学応用のためのドメイン固有多言語トランスフォーマー言語モデルについても紹介する。
論文 参考訳(メタデータ) (2023-09-18T14:01:06Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。