論文の概要: Concept Induction: Analyzing Unstructured Text with High-Level Concepts Using LLooM
- arxiv url: http://arxiv.org/abs/2404.12259v1
- Date: Thu, 18 Apr 2024 15:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:02:00.806455
- Title: Concept Induction: Analyzing Unstructured Text with High-Level Concepts Using LLooM
- Title(参考訳): 概念誘導:LLooMを用いた高レベル概念を用いた非構造化テキストの解析
- Authors: Michelle S. Lam, Janice Teoh, James Landay, Jeffrey Heer, Michael S. Bernstein,
- Abstract要約: 非構造化テキストから高レベルな概念を生成する計算プロセスである概念帰納法を導入する。
本稿では,大規模な言語モデルを用いてサンプルテキストを反復的に合成する概念帰納アルゴリズムLLooMを提案する。
LLooMのコンセプトは、品質とデータカバレッジの観点から、従来のトピックモデルのテクニックにより改善されていることが分かりました。
- 参考スコア(独自算出の注目度): 16.488296856867937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data analysts have long sought to turn unstructured text data into meaningful concepts. Though common, topic modeling and clustering focus on lower-level keywords and require significant interpretative work. We introduce concept induction, a computational process that instead produces high-level concepts, defined by explicit inclusion criteria, from unstructured text. For a dataset of toxic online comments, where a state-of-the-art BERTopic model outputs "women, power, female," concept induction produces high-level concepts such as "Criticism of traditional gender roles" and "Dismissal of women's concerns." We present LLooM, a concept induction algorithm that leverages large language models to iteratively synthesize sampled text and propose human-interpretable concepts of increasing generality. We then instantiate LLooM in a mixed-initiative text analysis tool, enabling analysts to shift their attention from interpreting topics to engaging in theory-driven analysis. Through technical evaluations and four analysis scenarios ranging from literature review to content moderation, we find that LLooM's concepts improve upon the prior art of topic models in terms of quality and data coverage. In expert case studies, LLooM helped researchers to uncover new insights even from familiar datasets, for example by suggesting a previously unnoticed concept of attacks on out-party stances in a political social media dataset.
- Abstract(参考訳): データアナリストは長い間、構造化されていないテキストデータを意味のある概念にしようとしてきた。
一般的なトピックモデリングとクラスタリングは低レベルのキーワードに重点を置いており、解釈作業がかなり必要である。
本稿では、非構造化テキストから明示的な包含基準によって定義された高レベルな概念を生成する計算プロセスである概念帰納法を紹介する。
最先端のBERTopicモデルが「女性、権力、女性」を出力する有毒なオンラインコメントのデータセットでは、概念誘導は「伝統的な性役割の批判」や「女性の関心の欠如」のようなハイレベルな概念を生み出している。
本稿では,大規模言語モデルを利用してサンプルテキストを反復的に合成する概念帰納アルゴリズムLLooMを提案する。
そして、LLooMを混合開始型テキスト解析ツールでインスタンス化し、分析者がトピックの解釈から理論駆動分析への関心を移すことを可能にする。
文献レビューからコンテンツモデレーションまで,技術評価と4つの分析シナリオを通じて,LLooMのコンセプトは,品質とデータカバレッジの観点から,従来のトピックモデル技術よりも改善されていることがわかった。
専門家のケーススタディにおいて、LLooMは、例えば政治ソーシャルメディアのデータセットにおける外部のスタンスに対する攻撃について、これまで知られていなかった概念を示唆することで、研究者がよく知られたデータセットから新しい洞察を明らかにするのに役立った。
関連論文リスト
- Hierarchical Narrative Analysis: Unraveling Perceptions of Generative AI [1.1874952582465599]
大規模言語モデル(LLM)を利用して,これらの構造を階層的な枠組みに抽出・整理する手法を提案する。
我々は,日本の文化庁が収集した生成AIに関する世論を分析して,このアプローチを検証する。
我々の分析は、生成的AIに対する多様な意見に影響を与える要因のより明確な可視化を提供し、合意と不一致の構造に関する深い洞察を提供する。
論文 参考訳(メタデータ) (2024-09-17T09:56:12Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - QuaLLM: An LLM-based Framework to Extract Quantitative Insights from Online Forums [10.684484559041284]
本研究は,オンラインフォーラム上でテキストデータから量的洞察を分析し,抽出する新しいフレームワークであるQuaLLMを紹介する。
このフレームワークを適用して、Redditの2つのライドシェアワーカーコミュニティからの100万以上のコメントを分析しました。
AIとアルゴリズムのプラットフォーム決定に関する重要な労働者の懸念を明らかにし、労働者の洞察に関する規制の要求に応えました。
論文 参考訳(メタデータ) (2024-05-08T18:20:03Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Topics as Entity Clusters: Entity-based Topics from Large Language Models and Graph Neural Networks [0.6486052012623045]
本稿では,エンティティのバイモーダルベクトル表現を用いたトピッククラスタリング手法を提案する。
我々のアプローチは、最先端のモデルと比較してエンティティを扱うのに適している。
論文 参考訳(メタデータ) (2023-01-06T10:54:54Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Scholastic: Graphical Human-Al Collaboration for Inductive and
Interpretive Text Analysis [20.008165537258254]
解釈学者は、意味のあるテーマが現れるまで、文書を手作業でサンプリングし、コードを適用し、コードをカテゴリに書き換え、照合することで、テキストコーパスから知識を生成する。
大規模なコーパスがあれば、機械学習はデータのサンプリングと分析をスケールするのに役立ちますが、以前の研究は、専門家が一般的に、解釈奨学金の破壊や推進に懸念を抱いていることを示しています。
我々は,機械・イン・ザ・ループクラスタリングアルゴリズムに関わる問題に対処するために,人間中心の設計アプローチを採り入れ,解釈テキスト分析を足場とした。
論文 参考訳(メタデータ) (2022-08-12T06:41:45Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。