論文の概要: Evaluating Text Coherence at Sentence and Paragraph Levels
- arxiv url: http://arxiv.org/abs/2006.03221v1
- Date: Fri, 5 Jun 2020 03:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:41:11.552480
- Title: Evaluating Text Coherence at Sentence and Paragraph Levels
- Title(参考訳): 文・段落レベルでのテキストコヒーレンスの評価
- Authors: Sennan Liu, Shuang Zeng and Sujian Li
- Abstract要約: 本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。
また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。
我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
- 参考スコア(独自算出の注目度): 17.99797111176988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, to evaluate text coherence, we propose the paragraph ordering
task as well as conducting sentence ordering. We collected four distinct
corpora from different domains on which we investigate the adaptation of
existing sentence ordering methods to a paragraph ordering task. We also
compare the learnability and robustness of existing models by artificially
creating mini datasets and noisy datasets respectively and verifying the
efficiency of established models under these circumstances. Furthermore, we
carry out human evaluation on the rearranged passages from two competitive
models and confirm that WLCS-l is a better metric performing significantly
higher correlations with human rating than tau, the most prevalent metric used
before. Results from these evaluations show that except for certain extreme
conditions, the recurrent graph neural network-based model is an optimal choice
for coherence modeling.
- Abstract(参考訳): 本稿では,文のコヒーレンスを評価するために,文の順序だけでなく段落の順序付けも提案する。
そこで我々は,各ドメインから4つの異なるコーパスを収集し,既存の文順化手法を段落順化タスクに適用することを検討した。
また,既存のモデルの学習可能性と頑健性を比較し,ミニデータセットとノイズデータセットをそれぞれ人工的に作成し,これらの状況下で確立したモデルの効率性を検証する。
さらに,WLCS-lは,これまで使用されてきた最も一般的な指標であるタウよりも,人体評価との相関が有意に高い指標であることが確認された。
これらの評価結果から、一定の極端な条件を除いて、リカレントグラフニューラルネットワークモデルがコヒーレンスモデリングの最適選択であることが示された。
関連論文リスト
- Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Calibrating Likelihoods towards Consistency in Summarization Models [22.023863165579602]
このような振る舞いの主な理由は、最大極大目標で訓練された要約モデルが、文脈が与えられた有理系列に高い確率を割り当てることである。
本研究では、自然言語推論(NLI)モデルにより測定された一貫性の測定値と整合性を高めるために、モデル生成シーケンスの可能性を校正することで、この問題を解決する。
論文 参考訳(メタデータ) (2023-10-12T23:17:56Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Preference Modeling with Context-Dependent Salient Features [12.403492796441434]
本稿では,各項目の特徴について,ノイズの多いペアワイド比較から,項目集合のランキングを推定する問題を考察する。
私たちのキーとなる観察は、他の項目から分離して比較した2つの項目は、機能の健全なサブセットのみに基づいて比較できるということです。
論文 参考訳(メタデータ) (2020-02-22T04:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。