論文の概要: Beyond the Black Box: Integrating Lexical and Semantic Methods in Quantitative Discourse Analysis with BERTopic
- arxiv url: http://arxiv.org/abs/2508.19099v1
- Date: Tue, 26 Aug 2025 15:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.895688
- Title: Beyond the Black Box: Integrating Lexical and Semantic Methods in Quantitative Discourse Analysis with BERTopic
- Title(参考訳): ブラックボックスを超えて:BERTopicを用いた量的談話分析における語彙的・意味的手法の統合
- Authors: Thomas Compton,
- Abstract要約: MAXQDAやNVivoのようなブラックボックスソフトウェアは、方法論的透明性と研究目標との整合性を損なうリスクがある。
本稿では, 三角法, 三角法, 解釈可能性を実現するために, 語彙的, 意味的手法を組み合わせたQDA用ハイブリッド・透明なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantitative Discourse Analysis has seen growing adoption with the rise of Large Language Models and computational tools. However, reliance on black box software such as MAXQDA and NVivo risks undermining methodological transparency and alignment with research goals. This paper presents a hybrid, transparent framework for QDA that combines lexical and semantic methods to enable triangulation, reproducibility, and interpretability. Drawing from a case study in historical political discourse, we demonstrate how custom Python pipelines using NLTK, spaCy, and Sentence Transformers allow fine-grained control over preprocessing, lemmatisation, and embedding generation. We further detail our iterative BERTopic modelling process, incorporating UMAP dimensionality reduction, HDBSCAN clustering, and c-TF-IDF keyword extraction, optimised through parameter tuning and multiple runs to enhance topic coherence and coverage. By juxtaposing precise lexical searches with context-aware semantic clustering, we argue for a multi-layered approach that mitigates the limitations of either method in isolation. Our workflow underscores the importance of code-level transparency, researcher agency, and methodological triangulation in computational discourse studies. Code and supplementary materials are available via GitHub.
- Abstract(参考訳): 量的談話分析は、大規模言語モデルと計算ツールの台頭とともに、普及している。
しかし、MAXQDAやNVivoのようなブラックボックスソフトウェアへの依存は、方法論的透明性と研究目標との整合性を損なうリスクがある。
本稿では, 三角法, 再現性, 解釈可能性を実現するために, 語彙的および意味的手法を組み合わせたQDA用ハイブリッド・透明なフレームワークを提案する。
歴史的政治談話のケーススタディから、NLTK、spurCy、Sentence Transformerを使ったカスタムPythonパイプラインが、事前処理、補修、埋め込み生成のきめ細かい制御を可能にしていることを示す。
さらに,UMAP次元の削減,HDBSCANクラスタリング,c-TF-IDFキーワード抽出をパラメータチューニングと複数実行によって最適化し,トピックコヒーレンスとカバレッジを向上する,反復的なBERTopicモデリングプロセスについて詳述する。
文脈を意識したセマンティッククラスタリングを用いて正確な語彙探索を行うことで、それぞれのメソッドの制約を緩和する多層アプローチを論じる。
我々のワークフローは、計算談話研究におけるコードレベルの透明性、研究者エージェンシー、方法論的三角測量の重要性を浮き彫りにしている。
コードと補足資料はGitHubから入手できる。
関連論文リスト
- Multi-Scale Manifold Alignment: A Unified Framework for Enhanced Explainability of Large Language Models [4.084134914321567]
近年のLLM(Large Language Models)の進歩は高いパフォーマンスを達成しているが、内部の推論は不透明であり、解釈可能性や重要なアプリケーションに対する信頼が制限されている。
提案するMulti_Scale Manifold Alignmentフレームワークは,潜在空間を大域的,中間的,局所的な意味的なマニフォールドに分解し,テーマ,文脈,単語レベルの詳細を抽出する。
このフレームワークは、LLMがマルチスケールセマンティクスをどのように構成し、解釈可能性を高め、バイアス検出やロバストネス向上などのアプリケーションを可能にするか、統一的な説明を提供する。
論文 参考訳(メタデータ) (2025-05-24T10:25:58Z) - Concept Navigation and Classification via Open-Source Large Language Model Processing [0.0]
本稿では,オープンソースのLarge Language Models (LLMs) を用いたテキストデータから潜在構造を検出・分類するための新しい手法を提案する。
提案手法は,自動要約とループ内検証を組み合わせることで,構造同定の精度と解釈性を向上させる。
論文 参考訳(メタデータ) (2025-02-07T08:42:34Z) - Paired Completion: Flexible Quantification of Issue-framing at Scale with LLMs [0.41436032949434404]
最小限の例を用いてコントラストフレームを検出する新しい手法である「ペア完備化」を導入する。
我々は、ペア化完了は、プロンプトベースおよび埋め込みベースの手法に代えて、コスト効率が高く、低バイアスであることを示した。
論文 参考訳(メタデータ) (2024-08-19T07:14:15Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。