論文の概要: Creating Targeted, Interpretable Topic Models with LLM-Generated Text Augmentation
- arxiv url: http://arxiv.org/abs/2504.17445v1
- Date: Thu, 24 Apr 2025 11:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.338882
- Title: Creating Targeted, Interpretable Topic Models with LLM-Generated Text Augmentation
- Title(参考訳): LLM生成テキスト拡張による対象・解釈可能なトピックモデルの作成
- Authors: Anna Lieb, Maneesh Arora, Eni Mustafaraj,
- Abstract要約: 我々は、政治学や社会学などの分野における非構造化テキストデータの潜在パターンを特定するために、トピックモデリングとクラスタリングを用いる。
GPT-4拡張を用いたトピックモデリングは,人間による指導を最小限に抑えることで,ドメイン固有の研究課題を調査できる高い解釈可能なカテゴリを創出することを発見した。
- 参考スコア(独自算出の注目度): 0.5120567378386615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised machine learning techniques, such as topic modeling and clustering, are often used to identify latent patterns in unstructured text data in fields such as political science and sociology. These methods overcome common concerns about reproducibility and costliness involved in the labor-intensive process of human qualitative analysis. However, two major limitations of topic models are their interpretability and their practicality for answering targeted, domain-specific social science research questions. In this work, we investigate opportunities for using LLM-generated text augmentation to improve the usefulness of topic modeling output. We use a political science case study to evaluate our results in a domain-specific application, and find that topic modeling using GPT-4 augmentations creates highly interpretable categories that can be used to investigate domain-specific research questions with minimal human guidance.
- Abstract(参考訳): トピックモデリングやクラスタリングのような教師なし機械学習技術は、政治科学や社会学などの分野における構造化されていないテキストデータの潜在パターンを特定するためにしばしば用いられる。
これらの手法は、人間の質的分析の労働集約的なプロセスに関わる再現性とコスト性に関する共通の懸念を克服する。
しかし、トピックモデルの2つの大きな制限は、その解釈可能性と、対象とするドメイン固有の社会科学研究の質問に答えるための実践性である。
本研究では,LLM生成テキストを拡張化してトピック・モデリング・アウトプットの有用性を向上する機会について検討する。
政治科学のケーススタディを用いて、ドメイン固有のアプリケーションで結果を評価し、GPT-4拡張を用いたトピックモデリングが、ドメイン固有の研究課題を最小限の人的ガイダンスで調査するのに使用できる高い解釈可能なカテゴリを作り出すことを発見した。
関連論文リスト
- Biological Sequence with Language Model Prompting: A Survey [14.270959261105968]
大きな言語モデル(LLM)は、さまざまなドメインにまたがる課題に対処するための強力なツールとして登場した。
本稿では, LLMを用いたプロンプトベース手法の生物学的配列への応用を系統的に検討する。
論文 参考訳(メタデータ) (2025-03-06T06:28:36Z) - Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。
これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。
本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文 参考訳(メタデータ) (2025-03-03T22:42:00Z) - Large Language Model for Qualitative Research -- A Systematic Mapping Study [3.302912592091359]
先進的な生成AIを駆使した大規模言語モデル(LLM)がトランスフォーメーションツールとして登場した。
本研究は, LLMを用いた定性的研究に関する文献を体系的にマッピングする。
LLMは様々な分野にまたがって利用されており、プロセスの自動化の可能性を示している。
論文 参考訳(メタデータ) (2024-11-18T21:28:00Z) - Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research [2.1728621449144763]
文献分析は、都市科学における研究動向、スコープ、影響を理解するために不可欠である。
キーワード検索に依存する伝統的な手法は、記事のタイトルやキーワードに明記されていない価値ある洞察を明らかにするのに失敗することが多い。
我々は、生成AIモデル、特にトランスフォーマーとレトリーバル拡張生成(RAG)を活用して、バイオロメトリ分析の自動化と強化を行う。
論文 参考訳(メタデータ) (2024-10-08T05:13:27Z) - Diagnostic Reasoning in Natural Language: Computational Model and Application [68.47402386668846]
言語基底タスク(NL-DAR)の文脈における診断誘導推論(DAR)について検討する。
パール構造因果モデルに基づくNL-DARの新しいモデリングフレームワークを提案する。
得られたデータセットを用いて,NL-DARにおける人間の意思決定過程を解析する。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Automating Thematic Analysis: How LLMs Analyse Controversial Topics [5.025737475817937]
大規模言語モデル(LLM)は有望な分析ツールである。
本稿では,LLMが議論の的となっているトピックのテーマ分析をどのようにサポートするかを検討する。
本研究は,人間エージェントと機械エージェントのセマンティック分類における重なり合いと相違点に注目した。
論文 参考訳(メタデータ) (2024-05-11T05:28:25Z) - Combatting Human Trafficking in the Cyberspace: A Natural Language
Processing-Based Methodology to Analyze the Language in Online Advertisements [55.2480439325792]
このプロジェクトは、高度自然言語処理(NLP)技術により、オンラインC2Cマーケットプレースにおける人身売買の急激な問題に取り組む。
我々は、最小限の監督で擬似ラベル付きデータセットを生成する新しい手法を導入し、最先端のNLPモデルをトレーニングするための豊富なリソースとして機能する。
重要な貢献は、Integrated Gradientsを使った解釈可能性フレームワークの実装であり、法執行にとって重要な説明可能な洞察を提供する。
論文 参考訳(メタデータ) (2023-11-22T02:45:01Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Can Large Language Models emulate an inductive Thematic Analysis of
semi-structured interviews? An exploration and provocation on the limits of
the approach and the model [0.0]
本稿では, GPT 3.5-Turboモデルを用いて, 帰納的テーマ解析のいくつかの側面をエミュレートした実験結果と考察を行った。
本論文の目的は, 定性解析における人間アナリストの代替ではなく, LLMデータ操作のいくつかの要素がある程度の定性研究を支援することができるかを知ることである。
論文 参考訳(メタデータ) (2023-05-22T13:16:07Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。