論文の概要: Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages
- arxiv url: http://arxiv.org/abs/2104.11761v1
- Date: Fri, 23 Apr 2021 18:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:46:58.902631
- Title: Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages
- Title(参考訳): 信頼に値するデセプション検出に向けて: ドメイン、モダリティ、言語をまたいだベンチマークモデルロバスト性
- Authors: Maria Glenski, Ellyn Ayton, Robin Cosbey, Dustin Arendt, and Svitlana
Volkova
- Abstract要約: 我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
- 参考スコア(独自算出の注目度): 10.131671217810581
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating model robustness is critical when developing trustworthy models
not only to gain deeper understanding of model behavior, strengths, and
weaknesses, but also to develop future models that are generalizable and robust
across expected environments a model may encounter in deployment. In this paper
we present a framework for measuring model robustness for an important but
difficult text classification task - deceptive news detection. We evaluate
model robustness to out-of-domain data, modality-specific features, and
languages other than English.
Our investigation focuses on three type of models: LSTM models trained on
multiple datasets(Cross-Domain), several fusion LSTM models trained with images
and text and evaluated with three state-of-the-art embeddings, BERT ELMo, and
GloVe (Cross-Modality), and character-level CNN models trained on multiple
languages (Cross-Language). Our analyses reveal a significant drop in
performance when testing neural models on out-of-domain data and non-English
languages that may be mitigated using diverse training data. We find that with
additional image content as input, ELMo embeddings yield significantly fewer
errors compared to BERT orGLoVe. Most importantly, this work not only carefully
analyzes deception model robustness but also provides a framework of these
analyses that can be applied to new models or extended datasets in the future.
- Abstract(参考訳): モデルロバスト性を評価することは、モデル行動、強み、弱点をより深く理解するためにだけでなく、モデルがデプロイメントで遭遇する可能性のある期待された環境にわたって一般化可能で堅牢な将来のモデルを開発するためにも重要である。
本稿では,重要ながら難解なテキスト分類課題である偽ニュース検出のためのモデルロバスト性測定フレームワークを提案する。
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は,複数のデータセット(Cross-Domain)で訓練されたLSTMモデル,画像とテキストで訓練された複数の融合LSTMモデル,最先端の3つの埋め込み,BERT ELMo,GloVe(Cross-Modality),複数の言語で訓練された文字レベルCNNモデル(Cross-Language)の3種類のモデルに焦点を当てた。
我々の分析では、さまざまなトレーニングデータを用いて軽減される可能性のある、ドメイン外のデータと非英語言語でニューラルモデルをテストする際に、パフォーマンスが大幅に低下することを明らかにした。
入力として画像コンテンツを追加することで、ELMoの埋め込みはBERTやGLoVeに比べてはるかに少ない誤差が得られることがわかった。
最も重要なのは、この研究がデセプションモデルのロバスト性を慎重に分析するだけでなく、将来新しいモデルや拡張データセットに適用できるこれらの分析のフレームワークを提供することだ。
関連論文リスト
- Multilingual Models for Check-Worthy Social Media Posts Detection [0.552480439325792]
この研究には様々なモデルの包括的分析が含まれており、特に多言語モデルに焦点を当てている。
この研究の新規性は、検証可能な事実的主張を効果的に含む有害なポストとポストを同時に検出できるマルチラベル多言語分類モデルの開発にある。
論文 参考訳(メタデータ) (2024-08-13T08:55:28Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition [4.059708117119894]
本研究は,言語モデル,特にn-gramモデルが,手書き認識の分野における最先端のディープラーニングアーキテクチャの性能に引き続き寄与するかどうかを論じる。
我々は、明示的なn-gram言語モデルを統合することなく、2つの著名なニューラルネットワークアーキテクチャ、PyLaiaとDANを評価した。
その結果,文字やサブワードの n-gram モデルの導入は,すべてのデータセット上での ATR モデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:37:48Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Introducing various Semantic Models for Amharic: Experimentation and
Evaluation with multiple Tasks and Datasets [19.855120632909124]
我々はAmharicの異なるセマンティックモデルを導入する。
モデルは word2Vec 埋め込み、分散シソーラス (DT)、コンテキスト埋め込み、DT 埋め込みを使って構築される。
新たに訓練されたモデルは、事前訓練された多言語モデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2020-11-02T17:48:25Z) - Comparative Study of Language Models on Cross-Domain Data with Model
Agnostic Explainability [0.0]
この研究は、最先端の言語モデルであるBERT、ELECTRAとその派生品であるRoBERTa、ALBERT、DistilBERTを比較した。
実験結果は、2013年の格付けタスクとフィナンシャル・フレーズバンクの感情検出タスクの69%、そして88.2%の精度で、新たな最先端の「評価タスク」を確立した。
論文 参考訳(メタデータ) (2020-09-09T04:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。