論文の概要: Revisiting Automated Topic Model Evaluation with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.12152v2
- Date: Sun, 22 Oct 2023 09:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:12:54.366117
- Title: Revisiting Automated Topic Model Evaluation with Large Language Models
- Title(参考訳): 大規模言語モデルによるトピック自動評価の再検討
- Authors: Dominik Stammbach, Vil\'em Zouhar, Alexander Hoyle, Mrinmaya Sachan,
Elliott Ash
- Abstract要約: より大きな言語モデルは、結果のトピックを適切に評価する。
次に,大規模言語モデルを用いてトピックの最適な数を自動的に決定できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 82.93251466435208
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Topic models are used to make sense of large text collections. However,
automatically evaluating topic model output and determining the optimal number
of topics both have been longstanding challenges, with no effective automated
solutions to date. This paper proposes using large language models to evaluate
such output. We find that large language models appropriately assess the
resulting topics, correlating more strongly with human judgments than existing
automated metrics. We then investigate whether we can use large language models
to automatically determine the optimal number of topics. We automatically
assign labels to documents and choosing configurations with the most pure
labels returns reasonable values for the optimal number of topics.
- Abstract(参考訳): トピックモデルは大きなテキストコレクションを理解するために使用される。
しかし、トピックモデルのアウトプットを自動評価し、最適なトピック数を決定することは、どちらも長年の課題であり、これまでは効果的な自動化ソリューションがなかった。
本稿では,大規模言語モデルを用いた出力評価手法を提案する。
大規模言語モデルは、既存の自動メトリクスよりも人間の判断に強く関連し、結果のトピックを適切に評価する。
次に,大規模言語モデルを用いてトピックの最適な数を自動的に決定できるかどうかを検討する。
文書にラベルを自動的に割り当て、最も純粋なラベルを持つ構成を選択すると、最適なトピック数に対して適切な値を返す。
関連論文リスト
- Label-Efficient Model Selection for Text Generation [15.487728508845704]
DiffUseは、候補テキスト生成モデル間の情報決定を効率的に行う方法である。
これにより、必要な好みアノテーションの量を削減し、評価を行う上で貴重な時間とリソースを節約できる。
DiffUseは、高い評価信頼性を維持しながら、必要なアノテーションの数(最大75%)を劇的に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-12T18:54:02Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [72.52996858794533]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
まず,大規模言語モデルの助けを借りて実世界のプロンプトリストを解析し,テキスト・ビデオ生成のための新しいプロンプトリストを作成する。
次に、視覚的品質、コンテンツ品質、動作品質、テキストキャプションアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Improving Contextualized Topic Models with Negative Sampling [3.708656266586146]
本稿では,文脈化トピックモデルに対する負のサンプリング機構を提案し,生成したトピックの品質を向上する。
特に、モデルトレーニング中に生成された文書トピックベクトルを摂動させ、三重項損失を用いて、正しい文書トピックベクトルから入力文書に類似した文書を再構築することを奨励する。
論文 参考訳(メタデータ) (2023-03-27T07:28:46Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Model LineUpper: Supporting Interactive Model Comparison at Multiple
Levels for AutoML [29.04776652873194]
現在のAutoMLシステムでは、選択はパフォーマンスメトリックによってのみサポートされる。
複数のXAI(Explainable AI)と可視化技術を組み合わせることで、AutoMLのインタラクティブなモデル比較を支援するツールを開発しています。
論文 参考訳(メタデータ) (2021-04-09T14:06:13Z) - Topic Modeling with Contextualized Word Representation Clusters [8.49454123392354]
トークンレベルの文脈化された単語表現のクラスタリングは、英語のテキストコレクションのトピックモデルと多くの類似点を共有する出力を生成する。
人気言語モデルの複数の異なる出力層から学習したトークンクラスタリングを評価する。
論文 参考訳(メタデータ) (2020-10-23T19:16:59Z) - Plug-and-Play Conversational Models [62.77150879036442]
我々はデコード時にさらなる計算を必要としないアプローチを導入し、また大きな言語モデルの微調整も必要としない。
我々は、広範囲な自動的・人的評価を通じて、複数の望ましい属性について、生成した会話応答に対する高い制御を実証する。
論文 参考訳(メタデータ) (2020-10-09T03:17:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。