論文の概要: Utilizing Out-Domain Datasets to Enhance Multi-Task Citation Analysis
- arxiv url: http://arxiv.org/abs/2202.10884v1
- Date: Tue, 22 Feb 2022 13:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 17:03:41.973398
- Title: Utilizing Out-Domain Datasets to Enhance Multi-Task Citation Analysis
- Title(参考訳): 領域外データセットを用いたマルチタスク引用分析
- Authors: Dominique Mercier, Syed Tahseen Raza Rizvi, Vikas Rajashekar, Sheraz
Ahmed, Andreas Dengel
- Abstract要約: 引用感情分析は、データセットアノテーションの不足と膨大なコストの両方に悩まされている。
モデルパフォーマンスを向上させるため、トレーニング中のドメイン外データの影響について検討する。
本稿では,感情分析と意図分析を対象とする,エンドツーエンドのトレーニング可能なマルチタスクモデルを提案する。
- 参考スコア(独自算出の注目度): 4.526582372434088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Citations are generally analyzed using only quantitative measures while
excluding qualitative aspects such as sentiment and intent. However,
qualitative aspects provide deeper insights into the impact of a scientific
research artifact and make it possible to focus on relevant literature free
from bias associated with quantitative aspects. Therefore, it is possible to
rank and categorize papers based on their sentiment and intent. For this
purpose, larger citation sentiment datasets are required. However, from a time
and cost perspective, curating a large citation sentiment dataset is a
challenging task. Particularly, citation sentiment analysis suffers from both
data scarcity and tremendous costs for dataset annotation. To overcome the
bottleneck of data scarcity in the citation analysis domain we explore the
impact of out-domain data during training to enhance the model performance. Our
results emphasize the use of different scheduling methods based on the use
case. We empirically found that a model trained using sequential data
scheduling is more suitable for domain-specific usecases. Conversely, shuffled
data feeding achieves better performance on a cross-domain task. Based on our
findings, we propose an end-to-end trainable multi-task model that covers the
sentiment and intent analysis that utilizes out-domain datasets to overcome the
data scarcity.
- Abstract(参考訳): 引用は通常、感情や意図のような質的な側面を除外しながら、定量的な手段のみを用いて分析される。
しかし、定性的な側面は科学的研究成果物の影響について深い洞察を与え、定量的な側面に関連するバイアスから関連する文献に焦点を当てることができる。
したがって、その感情や意図に基づいて、論文をランク付けして分類することが可能である。
この目的のためには、より大きな引用感情データセットが必要である。
しかし、時間とコストの観点から見ると、大きな引用感情データセットのキュレーションは難しい課題である。
特に、引用感情分析は、データ不足とデータセットアノテーションの膨大なコストの両方に苦しむ。
引用分析領域におけるデータ不足のボトルネックを克服するため、トレーニング中のドメイン外データの影響を調査し、モデルの性能を向上させる。
本研究は,異なるスケジューリング手法の使用をユースケースに基づいて強調する。
逐次データスケジューリングを用いて訓練されたモデルの方がドメイン固有のユースケースに適していることを実証的に見出した。
逆に、シャッフルされたデータフィードは、クロスドメインタスクでより良いパフォーマンスを達成する。
本研究では,データ不足を克服するためにドメイン外データセットを利用する感情分析と意図分析をカバーする,エンドツーエンドのトレーニング可能なマルチタスクモデルを提案する。
関連論文リスト
- Word Matters: What Influences Domain Adaptation in Summarization? [43.7010491942323]
本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討する。
本稿では,生成的要約の学習難しさとして,データセット学習の難しさの定量化を提案する。
実験により,データセット学習の難易度を考慮すると,要約タスクにおけるドメイン間オーバーラップと性能向上が近似線形関係を示すことがわかった。
論文 参考訳(メタデータ) (2024-06-21T02:15:49Z) - Sexism Detection on a Data Diet [14.899608305188002]
モデルのトレーニング中に、インフルエンススコアを利用してデータポイントの重要性を推定する方法を示します。
ドメイン外の3つのデータセット上で異なるプルーニング戦略を用いて、データプルーニングに基づいてトレーニングされたモデル性能を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:39:54Z) - Test-time Assessment of a Model's Performance on Unseen Domains via Optimal Transport [8.425690424016986]
テスト時に見えないドメインのデータに対して、MLモデルのパフォーマンスを評価することが不可欠です。
テスト時にモデルのパフォーマンスを洞察できるメトリクスを開発することが不可欠です。
本稿では,未知領域におけるモデルの性能と高い相関関係を持つ最適輸送量に基づく計量を提案する。
論文 参考訳(メタデータ) (2024-05-02T16:35:07Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Mere Contrastive Learning for Cross-Domain Sentiment Analysis [23.350121129347556]
クロスドメイン感情分析は、ソースドメインでトレーニングされたモデルを使用して、ターゲットドメイン内のテキストの感情を予測することを目的としている。
従来の研究はほとんどがクロスエントロピーに基づく手法であり、不安定性や一般化の低さに悩まされていた。
我々は,同じクラスからの文表現を閉じるように,バッチ内の負のサンプルを付加した改良されたコントラスト目的を提案する。
論文 参考訳(メタデータ) (2022-08-18T07:25:55Z) - Deep Unsupervised Domain Adaptation: A Review of Recent Advances and
Perspectives [16.68091981866261]
対象領域のデータの性能低下に対応するために、教師なし領域適応(UDA)を提案する。
UDAは、自然言語処理、ビデオ解析、自然言語処理、時系列データ分析、医用画像解析など、有望な成果を上げている。
論文 参考訳(メタデータ) (2022-08-15T20:05:07Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。