論文の概要: Beyond the Black Box: Integrating Lexical and Semantic Methods in Quantitative Discourse Analysis with BERTopic
- arxiv url: http://arxiv.org/abs/2508.19099v1
- Date: Tue, 26 Aug 2025 15:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.895688
- Title: Beyond the Black Box: Integrating Lexical and Semantic Methods in Quantitative Discourse Analysis with BERTopic
- Title(参考訳): ブラックボックスを超えて:BERTopicを用いた量的談話分析における語彙的・意味的手法の統合
- Authors: Thomas Compton,
- Abstract要約: MAXQDAやNVivoのようなブラックボックスソフトウェアは、方法論的透明性と研究目標との整合性を損なうリスクがある。
本稿では, 三角法, 三角法, 解釈可能性を実現するために, 語彙的, 意味的手法を組み合わせたQDA用ハイブリッド・透明なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantitative Discourse Analysis has seen growing adoption with the rise of Large Language Models and computational tools. However, reliance on black box software such as MAXQDA and NVivo risks undermining methodological transparency and alignment with research goals. This paper presents a hybrid, transparent framework for QDA that combines lexical and semantic methods to enable triangulation, reproducibility, and interpretability. Drawing from a case study in historical political discourse, we demonstrate how custom Python pipelines using NLTK, spaCy, and Sentence Transformers allow fine-grained control over preprocessing, lemmatisation, and embedding generation. We further detail our iterative BERTopic modelling process, incorporating UMAP dimensionality reduction, HDBSCAN clustering, and c-TF-IDF keyword extraction, optimised through parameter tuning and multiple runs to enhance topic coherence and coverage. By juxtaposing precise lexical searches with context-aware semantic clustering, we argue for a multi-layered approach that mitigates the limitations of either method in isolation. Our workflow underscores the importance of code-level transparency, researcher agency, and methodological triangulation in computational discourse studies. Code and supplementary materials are available via GitHub.
- Abstract(参考訳): 量的談話分析は、大規模言語モデルと計算ツールの台頭とともに、普及している。
しかし、MAXQDAやNVivoのようなブラックボックスソフトウェアへの依存は、方法論的透明性と研究目標との整合性を損なうリスクがある。
本稿では, 三角法, 再現性, 解釈可能性を実現するために, 語彙的および意味的手法を組み合わせたQDA用ハイブリッド・透明なフレームワークを提案する。
歴史的政治談話のケーススタディから、NLTK、spurCy、Sentence Transformerを使ったカスタムPythonパイプラインが、事前処理、補修、埋め込み生成のきめ細かい制御を可能にしていることを示す。
さらに,UMAP次元の削減,HDBSCANクラスタリング,c-TF-IDFキーワード抽出をパラメータチューニングと複数実行によって最適化し,トピックコヒーレンスとカバレッジを向上する,反復的なBERTopicモデリングプロセスについて詳述する。
文脈を意識したセマンティッククラスタリングを用いて正確な語彙探索を行うことで、それぞれのメソッドの制約を緩和する多層アプローチを論じる。
我々のワークフローは、計算談話研究におけるコードレベルの透明性、研究者エージェンシー、方法論的三角測量の重要性を浮き彫りにしている。
コードと補足資料はGitHubから入手できる。
関連論文リスト
- ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - Enhancing Retrieval-Augmented Generation with Topic-Enriched Embeddings: A Hybrid Approach Integrating Traditional NLP Techniques [0.0]
本研究は,用語ベースの信号と話題構造を文脈文の埋め込みと統合したトピック強化埋め込みを提案する。
項レベルのセマンティクスとトピックレベルのセマンティクスを併用することにより、トピックに富んだ埋め込みはセマンティクスクラスタリングを改善し、検索精度を高め、計算負担を軽減する。
論文 参考訳(メタデータ) (2025-12-31T13:43:57Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - Hybrid Fuzzing with LLM-Guided Input Mutation and Semantic Feedback [0.0]
本稿では,静的および動的解析をLarge Language Model(LLM)誘導入力変異と意味フィードバックと統合したハイブリッドファジリングフレームワークを提案する。
本手法は,最先端のファジィよりも高速な時間対第一のバグ,意味的多様性の向上,およびユニークなバグの競合数を実現する。
論文 参考訳(メタデータ) (2025-11-06T02:38:24Z) - ImCoref-CeS: An Improved Lightweight Pipeline for Coreference Resolution with LLM-based Checker-Splitter Refinement [45.01372641622595]
InmCoref-CeSは,拡張教師付きモデルとLarge Language Models(LLM)ベースの推論を統合する新しいフレームワークである。
まず、教師付きニューラルネットワークの性能境界を押し上げる改良CR法(textbfImCoref)を提案する。
マルチロールチェッカースプリッターエージェントとして機能するLCMを用いて、候補参照とコア参照結果の検証を行う。
論文 参考訳(メタデータ) (2025-10-11T14:48:08Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Multi-Scale Manifold Alignment: A Unified Framework for Enhanced Explainability of Large Language Models [4.084134914321567]
近年のLLM(Large Language Models)の進歩は高いパフォーマンスを達成しているが、内部の推論は不透明であり、解釈可能性や重要なアプリケーションに対する信頼が制限されている。
提案するMulti_Scale Manifold Alignmentフレームワークは,潜在空間を大域的,中間的,局所的な意味的なマニフォールドに分解し,テーマ,文脈,単語レベルの詳細を抽出する。
このフレームワークは、LLMがマルチスケールセマンティクスをどのように構成し、解釈可能性を高め、バイアス検出やロバストネス向上などのアプリケーションを可能にするか、統一的な説明を提供する。
論文 参考訳(メタデータ) (2025-05-24T10:25:58Z) - Concept Navigation and Classification via Open-Source Large Language Model Processing [0.0]
本稿では,オープンソースのLarge Language Models (LLMs) を用いたテキストデータから潜在構造を検出・分類するための新しい手法を提案する。
提案手法は,自動要約とループ内検証を組み合わせることで,構造同定の精度と解釈性を向上させる。
論文 参考訳(メタデータ) (2025-02-07T08:42:34Z) - Paired Completion: Flexible Quantification of Issue-framing at Scale with LLMs [0.41436032949434404]
最小限の例を用いてコントラストフレームを検出する新しい手法である「ペア完備化」を導入する。
我々は、ペア化完了は、プロンプトベースおよび埋め込みベースの手法に代えて、コスト効率が高く、低バイアスであることを示した。
論文 参考訳(メタデータ) (2024-08-19T07:14:15Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。