論文の概要: ProxAnn: Use-Oriented Evaluations of Topic Models and Document Clustering
- arxiv url: http://arxiv.org/abs/2507.00828v1
- Date: Tue, 01 Jul 2025 15:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.678968
- Title: ProxAnn: Use-Oriented Evaluations of Topic Models and Document Clustering
- Title(参考訳): ProxAnn: トピックモデルとドキュメントクラスタリングの利用指向評価
- Authors: Alexander Hoyle, Lorena Calvo-Bartolomé, Jordan Boyd-Graber, Philip Resnik,
- Abstract要約: 我々は,実践者の実世界のモデル利用を反映したスケーラブルなヒューマン評価プロトコルを設計する。
このプロトコルを用いて、さまざまなトピックモデルから出力された大量のクラウドワーカーアノテーションを収集する。
次に、これらのアノテーションを用いて自動プロキシの検証を行い、最適なLCMプロキシが人間のアノテーションと統計的に区別できないことを発見した。
- 参考スコア(独自算出の注目度): 52.19512723549318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topic model and document-clustering evaluations either use automated metrics that align poorly with human preferences or require expert labels that are intractable to scale. We design a scalable human evaluation protocol and a corresponding automated approximation that reflect practitioners' real-world usage of models. Annotators -- or an LLM-based proxy -- review text items assigned to a topic or cluster, infer a category for the group, then apply that category to other documents. Using this protocol, we collect extensive crowdworker annotations of outputs from a diverse set of topic models on two datasets. We then use these annotations to validate automated proxies, finding that the best LLM proxies are statistically indistinguishable from a human annotator and can therefore serve as a reasonable substitute in automated evaluations. Package, web interface, and data are at https://github.com/ahoho/proxann
- Abstract(参考訳): トピックモデルとドキュメントクラスタリングの評価では、人間の好みと不整合する自動メトリクスを使用するか、スケールしやすい専門家ラベルを必要とする。
我々は、スケーラブルな人体評価プロトコルとそれに対応する自動近似を設計し、実践者の実世界のモデル利用を反映する。
アノテーション -- あるいは LLM ベースのプロキシ -- は、トピックやクラスタに割り当てられたテキスト項目をレビューし、そのグループのカテゴリを推測し、そのカテゴリを他のドキュメントに適用する。
このプロトコルを用いて、2つのデータセット上の多様なトピックモデルから出力のクラウドワーカーアノテーションを収集する。
次に、これらのアノテーションを用いて自動プロキシの検証を行い、最適なLCMプロキシが人間のアノテーションと統計的に区別できないことを発見し、したがって自動評価の適切な代用として機能する。
Package, web interface, and data is at https://github.com/ahoho/proxann
関連論文リスト
- Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - Natural Language-Based Synthetic Data Generation for Cluster Analysis [4.13592995550836]
クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。
本研究では,高レベルシナリオの直接仕様に基づく合成データ生成を提案する。
私たちのオープンソースのPythonパッケージは、このワークフローを実装しています。
論文 参考訳(メタデータ) (2023-03-24T23:45:27Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - Ranking Models in Unlabeled New Environments [74.33770013525647]
ラベルのない新しい環境におけるランキングモデルの問題を紹介する。
1)完全にラベル付けされたプロキシデータセットを使用し、2)所定のターゲット環境での真のモデルランキングをよく反映します。
具体的には、ラベル付けされていないターゲットドメインに近いデータセットは、相対的なパフォーマンスランキングをよりよく保存する。
論文 参考訳(メタデータ) (2021-08-23T17:57:15Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。