論文の概要: Classifying multilingual party manifestos: Domain transfer across
country, time, and genre
- arxiv url: http://arxiv.org/abs/2307.16511v1
- Date: Mon, 31 Jul 2023 09:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:09:51.734669
- Title: Classifying multilingual party manifestos: Domain transfer across
country, time, and genre
- Title(参考訳): 多言語政党宣言の分類:国、時間、ジャンルにわたるドメイン転送
- Authors: Matthias A{\ss}enmacher and Nadja Sauter and Christian Heumann
- Abstract要約: 政治的マニフェストの大規模データベースにおいて、地理的な場所、言語、時間、ジャンルをまたいだドメイン転送の可能性を示す。
ジャンルの変更には、ニュージーランドの政治家による書き起こされたスピーチの外部コーパスを使用し、その他の3次元では、マニフェストデータベースのカスタムスプリットを使用します。
DistilBERTは低い計算コストで競争力があることを証明し、時間と国をまたいでさらなる実験に使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotating costs of large corpora are still one of the main bottlenecks in
empirical social science research. On the one hand, making use of the
capabilities of domain transfer allows re-using annotated data sets and trained
models. On the other hand, it is not clear how well domain transfer works and
how reliable the results are for transfer across different dimensions. We
explore the potential of domain transfer across geographical locations,
languages, time, and genre in a large-scale database of political manifestos.
First, we show the strong within-domain classification performance of
fine-tuned transformer models. Second, we vary the genre of the test set across
the aforementioned dimensions to test for the fine-tuned models' robustness and
transferability. For switching genres, we use an external corpus of transcribed
speeches from New Zealand politicians while for the other three dimensions,
custom splits of the Manifesto database are used. While BERT achieves the best
scores in the initial experiments across modalities, DistilBERT proves to be
competitive at a lower computational expense and is thus used for further
experiments across time and country. The results of the additional analysis
show that (Distil)BERT can be applied to future data with similar performance.
Moreover, we observe (partly) notable differences between the political
manifestos of different countries of origin, even if these countries share a
language or a cultural background.
- Abstract(参考訳): 大規模コーパスの注釈コストは、経験的社会科学研究における主要なボトルネックの1つである。
一方、ドメイン転送の機能を利用することで、アノテーション付きデータセットとトレーニング済みモデルの再利用が可能になる。
一方、ドメインの転送がいかにうまく機能し、異なる次元の転送に対して結果がどの程度信頼できるかは明らかではない。
政治宣言の大規模データベースにおいて,地域,言語,時間,ジャンル間のドメイン転送の可能性を探る。
まず,細調整トランスモデルのドメイン内分類性能について述べる。
第2に,上記の次元にわたってテストセットのジャンルを変えて,微調整されたモデルのロバスト性と転送可能性をテストする。
ジャンルの切り替えには、ニュージーランドの政治家による書き起こされたスピーチの外部コーパスを使用し、他の3次元では、マニフェストデータベースのカスタムスプリットが使用される。
BERTはモダリティをまたいだ最初の実験で最高のスコアを得るが、DistilBERTはより低い計算コストで競争力があることを証明し、時間と国でさらなる実験に使用される。
追加分析の結果、(Distil)BERTは、同様の性能で将来のデータに適用できることが示された。
また、これらの国が言語や文化的背景を共有している場合でも、起源の異なる国々の政治的マニフェスト間の顕著な違い(一部)を観察した。
関連論文リスト
- StylePrompter: Enhancing Domain Generalization with Test-Time Style Priors [39.695604434738186]
実世界のアプリケーションでは、推論段階でのサンプル分布は、トレーニング段階でのものとしばしば異なる。
本稿では,訓練されたモデルを動的に適応させるために,言語モダリティのスタイルプロンプトを紹介する。
特に,現在の画像のスタイル情報をトークン埋め込み空間に埋め込むように,スタイルプロンサを訓練する。
スタイルトークン埋め込み空間と手作りスタイル正規化のオープンスペース分割により、トレーニング済みのスタイルプロンサが未知のドメインからのデータを効率的に処理できるようになる。
論文 参考訳(メタデータ) (2024-08-17T08:35:43Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Multilingual estimation of political-party positioning: From label
aggregation to long-input Transformers [3.651047982634467]
我々は、政党マニフェストの自動スケーリング分析に2つのアプローチを実装し、比較する。
このタスクは最先端のモデルによって効率よく解決でき、ラベルアグリゲーションが最良の結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-10-19T08:34:48Z) - Analyzing the Generalizability of Deep Contextualized Language
Representations For Text Classification [0.0]
本研究では,2つの最先端の文脈言語表現であるELMoとDistilBERTのロバスト性を評価する。
ニュース分類タスクでは、これらのモデルはインドからのローカルニュースで開発され、中国からのローカルニュースでテストされる。
感情分析タスクでは、モデルが映画レビューに基づいてトレーニングされ、顧客レビューでテストされる。
論文 参考訳(メタデータ) (2023-03-22T22:31:09Z) - Cross-domain Sentiment Classification in Spanish [18.563342761346608]
商品レビューの大規模なデータベースで訓練された分類システムを用いて、異なるスペインドメインに一般化する能力について検討する。
結果として、これらの製品レビューをトレーニングすると、ドメイン間の一般化は実現可能であるが、非常に難しいことが示唆される。
論文 参考訳(メタデータ) (2023-03-15T23:11:30Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Studying the role of named entities for content preservation in text
style transfer [65.40394342240558]
フォーマルなテキストスタイル転送のためのコンテンツ保存における名前付きエンティティの役割に焦点をあてる。
テキストスタイル転送におけるコンテンツ類似度評価のための新しいデータセットを収集する。
本稿では,事前学習された形式性伝達モデルの誤り解析を行い,テキストスタイルの転送に使用されるベースラインコンテンツ類似度尺度の性能を高めるために,名前付きエンティティに関する情報を利用する簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T09:31:47Z) - VisDA-2021 Competition Universal Domain Adaptation to Improve
Performance on Out-of-Distribution Data [64.91713686654805]
Visual Domain Adaptation (VisDA) 2021コンペティションは、新しいテストディストリビューションに適応するモデルの能力をテストする。
我々は,新しい視点,背景,モダリティ,品質劣化への適応性を評価する。
厳密なプロトコルを使用してパフォーマンスを計測し、最先端のドメイン適応手法と比較する。
論文 参考訳(メタデータ) (2021-07-23T03:21:51Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - A Cross-Genre Ensemble Approach to Robust Reddit Part of Speech Tagging [10.609715843964263]
本研究では,異なるジャンルでトレーニングされた最先端のタグ付けモデルが,未フィルタリングRedditフォーラムの議論からWebコンテンツ上でどのように機能するかを検討する。
この結果から,少数のドメイン内データであっても,他のWebドメインからのデータのコントリビューションよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-29T16:36:38Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。