論文の概要: Extending a Parliamentary Corpus with MPs' Tweets: Automatic Annotation and Evaluation Using MultiParTweet
- arxiv url: http://arxiv.org/abs/2512.11567v1
- Date: Fri, 12 Dec 2025 13:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.789177
- Title: Extending a Parliamentary Corpus with MPs' Tweets: Automatic Annotation and Evaluation Using MultiParTweet
- Title(参考訳): MPsのつぶやきで議会コーパスを拡張する:MultiParTweetによる自動アノテーションと評価
- Authors: Mevlüt Bagci, Ali Abusaleh, Daniel Baumartz, Giueseppe Abrami, Maxim Konca, Alexander Mehler,
- Abstract要約: 我々は、政治家のソーシャルメディアの談話とドイツの政治コーパスGerParCorを結びつける、XのツイートコーパスであるMultiParTweetを紹介する。
MultiParTweetには39の546のツイートがあり、そのうち19の056のメディアアイテムが含まれている。
9つのテキストベースモデルと1つの視覚言語モデル(VLM)でアノテーションを強化し、感情、感情、トピックアノテーションを付加する。
- 参考スコア(独自算出の注目度): 37.712808276294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media serves as a critical medium in modern politics because it both reflects politicians' ideologies and facilitates communication with younger generations. We present MultiParTweet, a multilingual tweet corpus from X that connects politicians' social media discourse with German political corpus GerParCor, thereby enabling comparative analyses between online communication and parliamentary debates. MultiParTweet contains 39 546 tweets, including 19 056 media items. Furthermore, we enriched the annotation with nine text-based models and one vision-language model (VLM) to annotate MultiParTweet with emotion, sentiment, and topic annotations. Moreover, the automated annotations are evaluated against a manually annotated subset. MultiParTweet can be reconstructed using our tool, TTLABTweetCrawler, which provides a framework for collecting data from X. To demonstrate a methodological demonstration, we examine whether the models can predict each other using the outputs of the remaining models. In summary, we provide MultiParTweet, a resource integrating automatic text and media-based annotations validated with human annotations, and TTLABTweetCrawler, a general-purpose X data collection tool. Our analysis shows that the models are mutually predictable. In addition, VLM-based annotation were preferred by human annotators, suggesting that multimodal representations align more with human interpretation.
- Abstract(参考訳): ソーシャルメディアは、政治家のイデオロギーを反映し、若い世代とのコミュニケーションを促進するため、現代の政治において重要なメディアとなっている。
我々は、政治家のソーシャルメディア会話とドイツの政治コーパスGerParCorを結びつける、Xの多言語ツイートコーパスであるMultiParTweetを紹介し、オンラインコミュニケーションと議会討論の比較分析を可能にする。
MultiParTweetには39の546のツイートがあり、そのうち19の056のメディアアイテムが含まれている。
さらに,9つのテキストベースモデルと1つの視覚言語モデル(VLM)でアノテーションを強化し,感情,感情,トピックアノテーションを付加したマルチパーツイートを注釈化した。
さらに、自動アノテーションは手動で注釈付けされたサブセットに対して評価される。
提案ツールであるTTLABTweetCrawlerは,Xからデータを集めるためのフレームワークである。
要約すると、人間のアノテーションで検証された自動テキストとメディアベースのアノテーションを統合するリソースであるMultiParTweetと、汎用的なXデータ収集ツールであるTTLABTweetCrawlerを提供する。
我々の分析は、モデルが相互に予測可能であることを示している。
さらに、VLMベースのアノテーションは人間のアノテーションに好まれており、マルチモーダル表現は人間の解釈とよりよく一致することを示唆している。
関連論文リスト
- A Multimodal Conversational Agent for Tabular Data Analysis [0.2211620227346065]
大規模言語モデル(LLM)は、音声対話を含むユーザとの対話において、ハイパフォーマンスを維持しながら、データ分析、可視化、解釈を扱うことで、情報処理を再構築することができる。
直感的データ探索のためのマルチモーダルLLM駆動型対話エージェントTalk2Dataを提案する。
このシステムでは、ユーザーは音声やテキストでデータセットをクエリし、プロット、テーブル、統計、音声による説明などの回答を受け取ることができる。
論文 参考訳(メタデータ) (2025-11-23T11:21:04Z) - Stance-Driven Multimodal Controlled Statement Generation: New Dataset and Task [14.63475566746729]
テキストと画像によるツイートに対するスタンス駆動による制御可能なコンテンツ生成の新たな課題について検討する。
政治談話におけるマルチモーダル・スタンス・ジェネレーション・データセット(StanceGen2024)を作成する。
本稿では,マルチモーダル特徴の重み付けとスタントガイダンスを統合したスタンス駆動型マルチモーダル生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-04T09:20:19Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison Scoring of Texts with Large Language Models [3.656114607436271]
既存のテキストスコアリング手法では、大きなコーパス、短いテキストとの競合、手書きのデータが必要である。
生成的大言語モデル(LLM)を利用したテキストスコアリングフレームワークを開発した。
本稿では、Twitter上の特定の政党への反感を反映したスピーチをよりよく理解するために、このアプローチを適用する。
論文 参考訳(メタデータ) (2023-10-18T15:34:37Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Analyzing COVID-19 Tweets with Transformer-based Language Models [11.726315753231667]
私たちは、いくつかのCOVID-19ツイートコーパスで一連のGPTモデルをトレーニングします。
その後、プロンプトベースのクエリーを使用してこれらのモデルを調査し、ソーシャルメディアユーザーの意見の洞察を明らかにします。
結果は、様々な社会、政治、公衆衛生問題に関する世論調査に似ている。
論文 参考訳(メタデータ) (2021-04-20T21:45:33Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。