論文の概要: RooseBERT: A New Deal For Political Language Modelling
- arxiv url: http://arxiv.org/abs/2508.03250v1
- Date: Tue, 05 Aug 2025 09:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.884347
- Title: RooseBERT: A New Deal For Political Language Modelling
- Title(参考訳): RooseBERT: 政治言語モデリングのための新しいディール
- Authors: Deborah Dore, Elena Cabrio, Serena Villata,
- Abstract要約: RooseBERTは、政治談話のための事前訓練された言語モデルである。
大規模な政治討論や演説のコーパスで訓練されている。
- 参考スコア(独自算出の注目度): 18.442235469997232
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing amount of political debates and politics-related discussions calls for the definition of novel computational methods to automatically analyse such content with the final goal of lightening up political deliberation to citizens. However, the specificity of the political language and the argumentative form of these debates (employing hidden communication strategies and leveraging implicit arguments) make this task very challenging, even for current general-purpose pre-trained Language Models. To address this issue, we introduce a novel pre-trained Language Model for political discourse language called RooseBERT. Pre-training a language model on a specialised domain presents different technical and linguistic challenges, requiring extensive computational resources and large-scale data. RooseBERT has been trained on large political debate and speech corpora (8K debates, each composed of several sub-debates on different topics) in English. To evaluate its performances, we fine-tuned it on four downstream tasks related to political debate analysis, i.e., named entity recognition, sentiment analysis, argument component detection and classification, and argument relation prediction and classification. Our results demonstrate significant improvements over general-purpose Language Models on these four tasks, highlighting how domain-specific pre-training enhances performance in political debate analysis. We release the RooseBERT language model for the research community.
- Abstract(参考訳): 政治的議論や政治に関する議論が増加し、市民に対する政治的議論の緩和という最終目標を掲げて、そのようなコンテンツを自動分析する新しい計算方法の定義が求められた。
しかし、政治言語の特異性とこれらの議論の議論形式(隠されたコミュニケーション戦略と暗黙の議論の活用)は、現在の汎用事前学習言語モデルにおいても、この課題を非常に困難にしている。
そこで本稿では,RooseBERTという政治談話言語のための事前学習型言語モデルを提案する。
専門分野における言語モデルの事前学習は、広範囲の計算資源と大規模データを必要とする、異なる技術的および言語的課題を示す。
RooseBERTは、大規模な政治討論とスピーチコーポラ(それぞれ異なるトピックに関するいくつかのサブトピックからなる8Kの議論)で英語で訓練されている。
その性能を評価するために、政治討論の分析、すなわち、名前付きエンティティ認識、感情分析、引数成分の検出と分類、議論関係の予測と分類に関する4つの下流タスクについて微調整を行った。
その結果、これらの4つの課題における汎用言語モデルよりも顕著な改善が示され、ドメイン固有の事前学習が政治的議論の分析におけるパフォーマンスをいかに向上させるかが明らかになった。
研究コミュニティ向けのRooseBERT言語モデルをリリースする。
関連論文リスト
- Language-Dependent Political Bias in AI: A Study of ChatGPT and Gemini [0.0]
本研究では,大規模言語モデルの政治的傾向と問合せ言語による分化の存在について検討する。
ChatGPTとGeminiは、14の異なる言語を使用して政治的軸検を受けた。
比較分析の結果、ジェミニはChatGPTに比べてリベラルで左翼の傾向が顕著であった。
論文 参考訳(メタデータ) (2025-04-08T21:13:01Z) - AgoraSpeech: A multi-annotated comprehensive dataset of political discourse through the lens of humans and AI [1.3060410279656598]
アゴラ・スペーチ(AgoraSpeech)は、ギリシャ国民選挙中の2023年の6つの政党による171の政治演説を精巧にキュレートした高品質なデータセットである。
このデータセットには、テキスト分類、トピック識別、感情分析、名前付きエンティティ認識、分極、ポピュリズム検出の6つの自然言語処理(NLP)タスクのためのアノテーション(1段落)が含まれている。
論文 参考訳(メタデータ) (2025-01-09T18:17:59Z) - "I Never Said That": A dataset, taxonomy and baselines on response clarity classification [4.16330182801919]
本稿では,応答の明瞭さを検出し分類するタスクを編み出した新しい分類法を提案する。
提案する2段階分類法は,質問に対する回答の明瞭度を,質問に対する情報提供の観点から明らかにする。
ChatGPTと人間のアノテーションを組み合わせて、政治インタビューから個別のQAペアを収集、検証、注釈付けします。
論文 参考訳(メタデータ) (2024-09-20T20:15:06Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Modelling Political Coalition Negotiations Using LLM-based Agents [53.934372246390495]
我々は、新しいNLPタスクとして連立交渉を導入し、それを大規模言語モデルに基づくエージェント間の交渉としてモデル化する。
我々は、欧州政党の宣言とこれらの国における多数の選挙に関する連立協定を含む多言語データセット「POLCA」を導入する。
本稿では、政党間の連立交渉の過程をシミュレートし、その結果を予測するために、階層的なマルコフ決定プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-18T21:28:06Z) - "We Demand Justice!": Towards Social Context Grounding of Political Texts [19.58924256275583]
ソーシャルメディアの談話は、しばしば「政治的スペクトルの対立する側が使用する、見事に類似した言語」で構成されている。
本稿では、そのような曖昧な文を計算環境で完全に理解するために必要なコンテキストを定義する。
本論文では,テキストの現実的コンテキストを理解する必要がある2つの挑戦的データセットを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:53:35Z) - Neural Conversation Models and How to Rein Them in: A Survey of Failures
and Fixes [17.489075240435348]
最近の条件付き言語モデルは、しばしば流動的な方法で、あらゆる種類のテキストソースを継続することができる。
言語の観点から言えば、会話への貢献は高い。
最近のアプローチでは、基礎となる言語モデルを様々な介入ポイントでテームしようと試みている。
論文 参考訳(メタデータ) (2023-08-11T12:07:45Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - DiaASQ : A Benchmark of Conversational Aspect-based Sentiment Quadruple
Analysis [84.80347062834517]
本稿では,対話における目標視差感の4倍を検出することを目的としたDiaASQを紹介する。
中国語と英語の両方で大規模なDiaASQデータセットを手作業で構築する。
我々は、タスクをベンチマークするニューラルネットワークを開発し、エンドツーエンドの4倍の予測を効果的に実行する。
論文 参考訳(メタデータ) (2022-11-10T17:18:20Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。