論文の概要: Rethinking Coherence Modeling: Synthetic vs. Downstream Tasks
- arxiv url: http://arxiv.org/abs/2004.14626v2
- Date: Sun, 14 Feb 2021 04:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:16:24.596533
- Title: Rethinking Coherence Modeling: Synthetic vs. Downstream Tasks
- Title(参考訳): コヒーレンスモデリングの再考: 合成対下流課題
- Authors: Tasnim Mohiuddin, Prathyusha Jwalapuram, Xiang Lin, and Shafiq Joty
- Abstract要約: コヒーレンスモデルは一般的に、下流のアプリケーションでの性能を表すものではない合成タスクでのみ評価される。
我々は、合成文順序付けタスクにおいて、よく知られた従来型およびニューラルコヒーレンスモデルのベンチマーク実験を行う。
本結果は,合成作業におけるモデル性能と下流アプリケーションとの相関関係が弱いことを示す。
- 参考スコア(独自算出の注目度): 15.044192886215887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although coherence modeling has come a long way in developing novel models,
their evaluation on downstream applications for which they are purportedly
developed has largely been neglected. With the advancements made by neural
approaches in applications such as machine translation (MT), summarization and
dialog systems, the need for coherence evaluation of these tasks is now more
crucial than ever. However, coherence models are typically evaluated only on
synthetic tasks, which may not be representative of their performance in
downstream applications. To investigate how representative the synthetic tasks
are of downstream use cases, we conduct experiments on benchmarking well-known
traditional and neural coherence models on synthetic sentence ordering tasks,
and contrast this with their performance on three downstream applications:
coherence evaluation for MT and summarization, and next utterance prediction in
retrieval-based dialog. Our results demonstrate a weak correlation between the
model performances in the synthetic tasks and the downstream applications,
{motivating alternate training and evaluation methods for coherence models.
- Abstract(参考訳): コヒーレンス・モデリングは、新しいモデルの開発において長い道のりをたどっているが、それらを開発した下流アプリケーションに対する評価はほとんど無視されている。
機械翻訳(MT)、要約、ダイアログシステムなどの応用におけるニューラルアプローチの進歩により、これらのタスクのコヒーレンス評価の必要性はこれまで以上に重要になっている。
しかし、コヒーレンスモデルは通常、下流のアプリケーションでの性能を表すものではない合成タスクでのみ評価される。
合成タスクが下流のユースケースをどのように表現しているかを調べるために, 合成文順序付けタスクにおいてよく知られた, ニューラルコヒーレンスモデルのベンチマーク実験を行い, MTのコヒーレンス評価と要約, 検索に基づくダイアログにおける次の発話予測の3つのダウンストリームアプリケーションでの性能と対比した。
本研究は,合成タスクにおけるモデル性能と下流アプリケーションとの相関が弱いことを示し,コヒーレンスモデルに対する代替訓練と評価手法の動機付けを行った。
関連論文リスト
- When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - Improving the TENOR of Labeling: Re-evaluating Topic Models for Content
Analysis [5.757610495733924]
対話型タスクベース設定において,ニューラル,教師付き,古典的なトピックモデルの最初の評価を行う。
現在の自動メトリクスは、トピックモデリング機能の完全な図を提供していないことを示す。
論文 参考訳(メタデータ) (2024-01-29T17:54:04Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Tapping the Potential of Coherence and Syntactic Features in Neural
Models for Automatic Essay Scoring [16.24421485426685]
我々は,エッセイコヒーレンスの特徴を抽出し,表現するための新しい手法を提案する。
本稿では, BERT モデルの拡張に構文的特徴密度埋め込みを適用し, AES のハイブリッド手法における最高の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T02:00:03Z) - Evaluation of Categorical Generative Models -- Bridging the Gap Between
Real and Synthetic Data [18.142397311464343]
生成モデルに対する適切な拡張性の評価手法を提案する。
我々は、より困難なモデリングタスクに対応する、ますます大きな確率空間を考える。
我々は, 合成生成モデルと最先端のカテゴリー生成モデルの両方について, 合成実験により評価方法を検証する。
論文 参考訳(メタデータ) (2022-10-28T21:05:25Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - Rethinking Self-Supervision Objectives for Generalizable Coherence
Modeling [8.329870357145927]
機械生成テキストのコヒーレンス評価は、検討すべきコヒーレンスモデルの主要な応用の1つである。
タスク全体にわたってうまく一般化するモデルをもたらす訓練データと自己超越目標について検討する。
本研究では, 負サンプルの密度の増加が基本モデルを改善することを実証的に示し, 大域的負のキューを用いることで, 強負のサンプルを訓練しながらモデルをさらに改善・安定化する。
論文 参考訳(メタデータ) (2021-10-14T07:44:14Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Estimating the Effects of Continuous-valued Interventions using
Generative Adversarial Networks [103.14809802212535]
我々は,連続的評価介入の効果を推定する問題に対処するため,GAN(Generative Adversarial Network)フレームワークを構築した。
我々のモデルであるSCIGANは柔軟であり、いくつかの異なる継続的な介入に対する対実的な結果の同時推定が可能である。
継続的な介入に移行することによって生じる課題に対処するために、差別者のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T18:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。