論文の概要: Human-interpretable clustering of short-text using large language models
- arxiv url: http://arxiv.org/abs/2405.07278v1
- Date: Sun, 12 May 2024 12:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 17:30:59.175186
- Title: Human-interpretable clustering of short-text using large language models
- Title(参考訳): 大規模言語モデルを用いた短文の人間解釈可能なクラスタリング
- Authors: Justin K. Miller, Tristram J. Alexander,
- Abstract要約: 人間の生成したコンテンツをクラスタリングするために,大規模な言語モデルが利用できることを示す。
この成功は、人間レビュアーとChatGPTによって検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have seen extraordinary growth in popularity due to their human-like content generation capabilities. We show that these models can also be used to successfully cluster human-generated content, with success defined through the measures of distinctiveness and interpretability. This success is validated by both human reviewers and ChatGPT, providing an automated means to close the 'validation gap' that has challenged short-text clustering. Comparing the machine and human approaches we identify the biases inherent in each, and question the reliance on human-coding as the 'gold standard'. We apply our methodology to Twitter bios and find characteristic ways humans describe themselves, agreeing well with prior specialist work, but with interesting differences characteristic of the medium used to express identity.
- Abstract(参考訳): 大規模な言語モデルは、人間のライクなコンテンツ生成能力によって、非常に人気が高まっている。
これらのモデルは人間の生成したコンテンツをクラスタリングするのにも有効であり、その成功は識別性と解釈可能性の尺度によって定義される。
この成功は、人間レビュアーとChatGPTによって検証され、短文クラスタリングに挑戦する‘バリデーションギャップ’を閉じるための自動化された手段を提供する。
機械と人間のアプローチを比較して、それぞれに固有のバイアスを特定し、人間のコーディングへの依存を「金の標準」として疑問視する。
提案手法をTwitterのバイオスに適用し,従来の専門的な研究とよく一致しているが,アイデンティティを表現するために使用される媒体の特色は興味深い。
関連論文リスト
- Dial-In LLM: Human-Aligned Dialogue Intent Clustering with LLM-in-the-loop [13.110146614092349]
我々は,大言語モデルの優れた言語理解能力を活用して,よりよい校正意図クラスタリングアルゴリズムを設計する。
本稿では,クラスタレベルの改善と高品質なクラスタの継続的な発見を容易にする反復クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-12T08:19:01Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - NeurCAM: Interpretable Neural Clustering via Additive Models [3.4437947384641037]
解釈可能なクラスタリングアルゴリズムは、取得したグループを説明しながら、類似したデータポイントをグループ化する。
本稿では、解釈可能なクラスタリング問題に対する新しいアプローチであるNeurCAM(Neur Clustering Additive Model)を紹介する。
本手法は,テキストデータのクラスタリングにおいて,他の解釈可能なクラスタリング手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-23T20:32:57Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。
本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-02T03:50:31Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Enhancement of Short Text Clustering by Iterative Classification [0.0]
反復分類は、外乱のないクラスターを得るために外乱除去を適用する。
クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。
これを何回か繰り返すことで、より改良されたテキストのクラスタリングが得られる。
論文 参考訳(メタデータ) (2020-01-31T02:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。