論文の概要: Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another
- arxiv url: http://arxiv.org/abs/2308.03742v2
- Date: Tue, 26 Mar 2024 16:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 01:20:23.371488
- Title: Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another
- Title(参考訳): 1つのコーパスから別のコーパスへの符号化システム構築のためのBERTモデルのトレーニング
- Authors: Dalma Galambos, Pál Zsámboki,
- Abstract要約: 本稿では,ハンガリーの文芸雑誌の段落で開発されたコーディングシステムを通じて,BERTモデルを学習する方法について述べる。
コーディングシステムの目的は、1989年のハンガリーにおける政治変革に関する文学翻訳の認識の傾向を追跡することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes how we train BERT models to carry over a coding system developed on the paragraphs of a Hungarian literary journal to another. The aim of the coding system is to track trends in the perception of literary translation around the political transformation in 1989 in Hungary. To evaluate not only task performance but also the consistence of the annotation, moreover, to get better predictions from an ensemble, we use 10-fold crossvalidation. Extensive hyperparameter tuning is used to obtain the best possible results and fair comparisons. To handle label imbalance, we use loss functions and metrics robust to it. Evaluation of the effect of domain shift is carried out by sampling a test set from the target domain. We establish the sample size by estimating the bootstrapped confidence interval via simulations. This way, we show that our models can carry over one annotation system to the target domain. Comparisons are drawn to provide insights such as learning multilabel correlations and confidence penalty improve resistance to domain shift, and domain adaptation on OCR-ed text on another domain improves performance almost to the same extent as that on the corpus under study. See our code at https://codeberg.org/zsamboki/bert-annotator-ensemble.
- Abstract(参考訳): 本稿では,ハンガリーの文芸雑誌の段落で開発されたコーディングシステムを通じて,BERTモデルを学習する方法について述べる。
コーディングシステムの目的は、1989年のハンガリーにおける政治変革に関する文学翻訳の認識の傾向を追跡することである。
タスク性能だけでなくアノテーションの構成も評価し、アンサンブルからより良い予測を得るために10倍のクロスバリデーションを用いる。
広汎なハイパーパラメータチューニングは、最良の結果と公正な比較を得るために使用される。
ラベルの不均衡に対処するために、損失関数とそれに対して堅牢なメトリクスを使用します。
対象ドメインからテストセットをサンプリングすることにより、ドメインシフトの効果の評価を行う。
シミュレーションにより自己申告された信頼区間を推定し,サンプルサイズを推定する。
このようにして、我々のモデルは1つのアノテーションシステムを対象のドメインに持っていくことができることを示す。
複数ラベルの相関関係の学習や信頼性の低下によるドメインシフトに対する抵抗性の向上などの知見を提供するため,他領域におけるOCRテキストのドメイン適応は,研究対象のコーパスとほぼ同等の性能向上を図っている。
コードについてはhttps://codeberg.org/zsamboki/bert-annotator-ensembleを参照してください。
関連論文リスト
- DaMSTF: Domain Adversarial Learning Enhanced Meta Self-Training for
Domain Adaptation [20.697905456202754]
ドメイン適応のための新しい自己学習フレームワーク、すなわちドメイン逆学習強化自己学習フレームワーク(DaMSTF)を提案する。
DaMSTFはメタラーニングによって各擬似インスタンスの重要性を推定し、ラベルノイズを同時に低減し、ハードサンプルを保存する。
DaMSTFはBERTの性能を平均4%近く改善する。
論文 参考訳(メタデータ) (2023-08-05T00:14:49Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Domain-knowledge Inspired Pseudo Supervision (DIPS) for Unsupervised
Image-to-Image Translation Models to Support Cross-Domain Classification [16.4151067682813]
本稿ではDIPS(Domain-knowledge Inspired Pseudo Supervision)と呼ばれる新しい手法を提案する。
DIPSはドメインインフォームド・ガウス混合モデルを使用して疑似アノテーションを生成し、従来の教師付きメトリクスの使用を可能にする。
最適保存チェックポイントモデルを選択する際に、FIDを含む様々なGAN評価指標を上回り、その効果を実証する。
論文 参考訳(メタデータ) (2023-03-18T02:42:18Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Low-confidence Samples Matter for Domain Adaptation [47.552605279925736]
ドメイン適応(DA)は、知識をラベルの豊富なソースドメインから関連するがラベルの少ないターゲットドメインに転送することを目的としている。
低信頼度サンプルの処理による新しいコントラスト学習法を提案する。
提案手法を教師なしと半教師付きの両方のDA設定で評価する。
論文 参考訳(メタデータ) (2022-02-06T15:45:45Z) - Multiple-Source Domain Adaptation via Coordinated Domain Encoders and
Paired Classifiers [1.52292571922932]
ドメインシフトの下でのテキスト分類の新しいモデルを提案する。
更新表現を利用して、ドメインエンコーダを動的に統合する。
また、ターゲットドメインのエラー率を推測するために確率モデルも採用している。
論文 参考訳(メタデータ) (2022-01-28T00:50:01Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。