論文の概要: Goal-Driven Explainable Clustering via Language Descriptions
- arxiv url: http://arxiv.org/abs/2305.13749v2
- Date: Mon, 13 Nov 2023 18:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:53:32.853062
- Title: Goal-Driven Explainable Clustering via Language Descriptions
- Title(参考訳): 言語記述による目標駆動型説明可能なクラスタリング
- Authors: Zihan Wang, Jingbo Shang, Ruiqi Zhong
- Abstract要約: 我々は新しいタスク定式化"Goal-Driven Clustering with Explanations"(GoalEx)を提案する。
GoalExは、ゴールと説明の両方を自由形式の言語記述として表現している。
提案手法は,従来の手法よりも精度が高く,目標に関連のある説明を導出する。
- 参考スコア(独自算出の注目度): 50.980832345025334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised clustering is widely used to explore large corpora, but existing
formulations neither consider the users' goals nor explain clusters' meanings.
We propose a new task formulation, "Goal-Driven Clustering with Explanations"
(GoalEx), which represents both the goal and the explanations as free-form
language descriptions. For example, to categorize the errors made by a
summarization system, the input to GoalEx is a corpus of annotator-written
comments for system-generated summaries and a goal description "cluster the
comments based on why the annotators think the summary is imperfect.''; the
outputs are text clusters each with an explanation ("this cluster mentions that
the summary misses important context information."), which relates to the goal
and precisely explain which comments should (not) belong to a cluster. To
tackle GoalEx, we prompt a language model with "[corpus subset] + [goal] +
Brainstorm a list of explanations each representing a cluster."; then we
classify whether each sample belongs to a cluster based on its explanation;
finally, we use integer linear programming to select a subset of candidate
clusters to cover most samples while minimizing overlaps. Under both automatic
and human evaluation on corpora with or without labels, our method produces
more accurate and goal-related explanations than prior methods. We release our
data and implementation at https://github.com/ZihanWangKi/GoalEx.
- Abstract(参考訳): 教師なしクラスタリングは大規模なコーパスの探索に広く用いられているが、既存の定式化ではユーザの目標やクラスタの意味の説明は考慮されていない。
目的と説明の両方を自由形式の言語記述として表現する,新たなタスク定式化 "Goal-Driven Clustering with Explanations" (GoalEx) を提案する。
For example, to categorize the errors made by a summarization system, the input to GoalEx is a corpus of annotator-written comments for system-generated summaries and a goal description "cluster the comments based on why the annotators think the summary is imperfect.''; the outputs are text clusters each with an explanation ("this cluster mentions that the summary misses important context information."), which relates to the goal and precisely explain which comments should (not) belong to a cluster. To tackle GoalEx, we prompt a language model with "[corpus subset] + [goal] + Brainstorm a list of explanations each representing a cluster.
そして、各サンプルがその説明に基づいてクラスタに属しているかどうかを分類し、最後に整数線形プログラミングを使用して、ほとんどのサンプルをカバーするために候補クラスタのサブセットを選択し、重複を最小限に抑える。
ラベルの有無にかかわらずコーパスの自動評価と人的評価の両面から,本手法は従来手法よりも正確で目標に関連のある説明を生成する。
データと実装はhttps://github.com/ZihanWangKi/GoalExで公開しています。
関連論文リスト
- OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Interpretable Deep Clustering for Tabular Data [7.972599673048582]
クラスタリングは、データ分析で広く使われている基本的な学習タスクである。
本稿では,インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測する,新たなディープラーニングフレームワークを提案する。
提案手法は,生物,テキスト,画像,物理データセットのクラスタ割り当てを確実に予測できることを示す。
論文 参考訳(メタデータ) (2023-06-07T21:08:09Z) - Cluster Explanation via Polyhedral Descriptions [0.0]
クラスタリングは教師なしの学習問題であり、競合しないデータポイントを同様の機能を持つグループに分割することを目的としている。
従来のクラスタリングアルゴリズムは、グループ割り当ての解釈可能性ではなく、正確性に重点を置いているため、グループに対する限られた洞察を提供する。
本稿では,各クラスタのまわりにポリヘドラを配置し,結果として生じるポリヘドラの複雑さを最小化して,クラスタを説明するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:26:44Z) - Providing Insights for Open-Response Surveys via End-to-End
Context-Aware Clustering [2.6094411360258185]
本研究では,オープンレスポンスサーベイデータ中の組込み意味パターンを抽出し,集約し,省略する,エンド・ツー・エンドのコンテキスト認識フレームワークを提案する。
我々のフレームワークは、テキストデータを意味ベクトルにエンコードするために、事前訓練された自然言語モデルに依存している。
本フレームワークは,調査データから最も洞察に富んだ情報を抽出するプロセスを自動化することで,大規模化のコストを削減する。
論文 参考訳(メタデータ) (2022-03-02T18:24:10Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Deep Descriptive Clustering [24.237000220172906]
本稿では,解釈可能なタグを用いた説明を同時に生成しながら,複雑なデータに対してクラスタリングを行うための新しい設定について検討する。
我々は,入力に対する経験的分布と,クラスタリング目的に対して誘導されたクラスタリングラベルの相互情報を最大化することにより,優れたクラスタを形成する。
公開データによる実験結果から,クラスタリング性能の競争ベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-24T21:40:16Z) - Open Intent Discovery through Unsupervised Semantic Clustering and
Dependency Parsing [44.99113692679489]
本稿では,意図発見のための教師なし2段階アプローチを提案し,ラベルなし発話の集合から意図ラベルを自動的に生成する。
提案手法が有意義なインテントラベルを自動的に生成し,発話クラスタリングやインテント発見において高精度かつリコールを実現することを示す。
論文 参考訳(メタデータ) (2021-04-25T09:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。