論文の概要: Contextualized Topic Coherence Metrics
- arxiv url: http://arxiv.org/abs/2305.14587v1
- Date: Tue, 23 May 2023 23:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:07:57.229327
- Title: Contextualized Topic Coherence Metrics
- Title(参考訳): 文脈化トピックコヒーレンスメトリクス
- Authors: Hamed Rahimi, Jacob Louis Hoover, David Mimno, Hubert Naacke, Camelia
Constantin, Bernd Amann
- Abstract要約: CTC(Contextualized Topic Coherence)と呼ばれる,標準的な話題評価にインスパイアされた手法を提案する。
我々は,6つのトピックモデルにおいて,他の5つの指標と比較してCTCを評価し,自動トピックコヒーレンス法よりも優れた結果を得た。
- 参考スコア(独自算出の注目度): 6.630482733703617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent explosion in work on neural topic modeling has been criticized for
optimizing automated topic evaluation metrics at the expense of actual
meaningful topic identification. But human annotation remains expensive and
time-consuming. We propose LLM-based methods inspired by standard human topic
evaluations, in a family of metrics called Contextualized Topic Coherence
(CTC). We evaluate both a fully automated version as well as a semi-automated
CTC that allows human-centered evaluation of coherence while maintaining the
efficiency of automated methods. We evaluate CTC relative to five other metrics
on six topic models and find that it outperforms automated topic coherence
methods, works well on short documents, and is not susceptible to meaningless
but high-scoring topics.
- Abstract(参考訳): 最近のニューラルトピックモデリングの研究の爆発は、実際の意味のあるトピック識別を犠牲にして、自動トピック評価メトリクスを最適化したことで批判されている。
しかし、人間のアノテーションは高価で時間を要する。
本研究では,標準的な人間のトピック評価にインスパイアされたLCMに基づく手法を提案する。
我々は,完全自動バージョンと半自動CTCの両方を評価し,自動手法の効率を保ちながら,人間中心のコヒーレンス評価を可能にする。
6つのトピックモデルに関する他の5つのメトリクスと比較してctcを評価し、自動的なトピックコヒーレンスメソッドよりも優れており、短いドキュメントでうまく動作し、意味のない高精細なトピックには感受性がないことを突き止めた。
関連論文リスト
- Automatic Die Studies for Ancient Numismatics [3.384989790372139]
ダイス研究は古代の貨幣生産の定量化に不可欠である。
このタスクを自動化しようとする作業はほとんどなく、コンピュータビジョンの観点から適切なリリースや評価が行われていない。
提案手法は,従来の手法と比較して,いくつかの革新を取り入れた完全自動アプローチである。
論文 参考訳(メタデータ) (2024-07-30T14:54:54Z) - Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。
本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。
分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文 参考訳(メタデータ) (2024-06-06T09:18:42Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - Improving the TENOR of Labeling: Re-evaluating Topic Models for Content
Analysis [5.757610495733924]
対話型タスクベース設定において,ニューラル,教師付き,古典的なトピックモデルの最初の評価を行う。
現在の自動メトリクスは、トピックモデリング機能の完全な図を提供していないことを示す。
論文 参考訳(メタデータ) (2024-01-29T17:54:04Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。