論文の概要: An Evaluation Dataset and Strategy for Building Robust Multi-turn
Response Selection Model
- arxiv url: http://arxiv.org/abs/2109.04834v1
- Date: Fri, 10 Sep 2021 12:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 18:12:11.923334
- Title: An Evaluation Dataset and Strategy for Building Robust Multi-turn
Response Selection Model
- Title(参考訳): ロバストマルチターン応答選択モデル構築のための評価データセットと戦略
- Authors: Kijong Han, Seojin Lee, Wooin Lee, Joosung Lee, Dong-hun Lee
- Abstract要約: マルチターン応答選択モデルは、最近、いくつかのベンチマークデータセットで人間に匹敵する性能を示した。
現実の環境では、これらのモデルは、表面パターンに強く依存した誤った予測を行うなど、しばしば弱点がある。
- 参考スコア(独自算出の注目度): 3.20238141000059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn response selection models have recently shown comparable
performance to humans in several benchmark datasets. However, in the real
environment, these models often have weaknesses, such as making incorrect
predictions based heavily on superficial patterns without a comprehensive
understanding of the context. For example, these models often give a high score
to the wrong response candidate containing several keywords related to the
context but using the inconsistent tense. In this study, we analyze the
weaknesses of the open-domain Korean Multi-turn response selection models and
publish an adversarial dataset to evaluate these weaknesses. We also suggest a
strategy to build a robust model in this adversarial environment.
- Abstract(参考訳): マルチターン応答選択モデルは最近、いくつかのベンチマークデータセットで人間に匹敵するパフォーマンスを示している。
しかし、現実の環境では、これらのモデルは、文脈を包括的に理解することなく、表面的パターンに大きく依存した誤った予測を行うなど、しばしば弱点がある。
例えば、これらのモデルは、コンテキストに関連するいくつかのキーワードを含む間違った応答候補に高いスコアを与えるが、矛盾しない時制を使用する。
本研究では,open-domain korea multi-turn response selection modelの弱点を分析し,これらの弱点を評価するための逆データセットを公開する。
また,この対向環境において頑健なモデルを構築するための戦略を提案する。
関連論文リスト
- A Novel Metric for Measuring the Robustness of Large Language Models in Non-adversarial Scenarios [5.617202699068449]
複数のデータセット上で複数の大規模言語モデルのロバスト性を評価する。
ベンチマークデータセットは、自然に保存され、重複しない摂動を導入することで構築される。
論文 参考訳(メタデータ) (2024-08-04T08:43:09Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Deep Neural Network Benchmarks for Selective Classification [27.098996474946446]
複数の選択的な分類フレームワークが存在し、その多くはディープニューラルネットワークアーキテクチャに依存している。
提案手法は,選択誤差率,経験的カバレッジ,拒否されたインスタンスのクラス分布,アウト・オブ・ディストリビューション・インスタンスの性能など,いくつかの基準を用いて評価する。
論文 参考訳(メタデータ) (2024-01-23T12:15:47Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Next-Year Bankruptcy Prediction from Textual Data: Benchmark and
Baselines [10.944533132358439]
倒産予測のモデルは、いくつかの現実世界のシナリオで有用である。
共通のベンチマークデータセットと評価戦略の欠如は、モデル間の客観的比較を妨げる。
本稿では、新しいデータセットと確立されたデータセットに基づいて、構造化されていないデータシナリオに対するそのようなベンチマークを紹介する。
論文 参考訳(メタデータ) (2022-08-24T07:11:49Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Synthesizing Adversarial Negative Responses for Robust Response Ranking
and Evaluation [34.52276336319678]
オープンドメインニューラルダイアログモデルは、応答のランク付けと評価タスクにおいて高い性能を達成している。
コンテンツ類似性への過度な依存は、モデルが不整合の存在に敏感でないようにする。
本稿では,逆負の学習データを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2021-06-10T16:20:55Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。