論文の概要: THETA: A Textual Hybrid Embedding-based Topic Analysis Framework and AI Scientist Agent for Scalable Computational Social Science
- arxiv url: http://arxiv.org/abs/2603.05972v1
- Date: Fri, 06 Mar 2026 07:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.282562
- Title: THETA: A Textual Hybrid Embedding-based Topic Analysis Framework and AI Scientist Agent for Scalable Computational Social Science
- Title(参考訳): テキストハイブリッド埋め込みに基づくトピック分析フレームワークTheTAとAI Scientist Agent for Scalable Computational Social Science
- Authors: Zhenke Duan, Xin Li,
- Abstract要約: 本稿では,テキストハイブリッド埋め込みに基づくトピック分析(THETA)を紹介する。
THETAは、膨大なデータスケールと豊富な理論深度の間のギャップを埋める、新しい計算パラダイムとオープンソースツールである。
以上の結果から,LDA,EMM,CTMなどの従来のモデルよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 5.225859530177356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The explosion of big social data has created a scalability trap for traditional qualitative research, as manual coding remains labor-intensive and conventional topic models often suffer from semantic thinning and a lack of domain awareness. This paper introduces Textual Hybrid Embedding based Topic Analysis (THETA), a novel computational paradigm and open-source tool designed to bridge the gap between massive data scale and rich theoretical depth. THETA moves beyond frequency-based statistics by implementing Domain-Adaptive Fine-tuning (DAFT) via LoRA on foundation embedding models, which effectively optimizes semantic vector structures within specific social contexts to capture latent meanings. To ensure epistemological rigor, we encapsulate this process into an AI Scientist Agent framework, comprising Data Steward, Modeling Analyst, and Domain Expert agents, to simulate the human-in-the-loop expert judgment and constant comparison processes central to grounded theory. Departing from purely computational models, this framework enables agents to iteratively evaluate algorithmic clusters, perform cross-topic semantic alignment, and refine raw outputs into logically consistent theoretical categories. To validate the effectiveness of THETA, we conducted experiments across six domains, including financial regulation and public health. Our results demonstrate that THETA significantly outperforms traditional models, such as LDA, ETM, and CTM, in capturing domain-specific interpretive constructs while maintaining superior coherence. By providing an interactive analysis platform, THETA democratizes advanced natural language processing for social scientists and ensures the trustworthiness and reproducibility of research findings. Code is available at https://github.com/CodeSoul-co/THETA.
- Abstract(参考訳): 大規模ソーシャルデータの爆発は、手作業によるコーディングが労働集約的なままであり、従来のトピックモデルはセマンティックスシン化とドメイン認識の欠如に悩まされるため、従来の定性的な研究のためのスケーラビリティの罠を生み出している。
本稿では,大規模データスケールと豊富な理論深度の間のギャップを埋めるために設計された,新しい計算パラダイムとオープンソースツールであるTextual Hybrid Embedding based Topic Analysis (THETA)を紹介する。
TheTAは、特定の社会的文脈における意味的ベクトル構造を効果的に最適化し、潜在意味をキャプチャする基礎埋め込みモデル上で、LoRAを介してDAFT(Domain-Adaptive Fine-tuning)を実装することで、周波数ベースの統計学を超えて進んでいる。
認識論的厳密性を確保するために、我々は、このプロセスをデータスチュワード、モデリングアナリスト、ドメインエキスパートエージェントからなるAIサイエンティストエージェントフレームワークにカプセル化し、人間とループのエキスパートの判断と、グラウンドド理論の中心となる一定の比較プロセスをシミュレートする。
このフレームワークは純粋に計算モデルから離れ、エージェントがアルゴリズムクラスタを反復的に評価し、横断的なセマンティックアライメントを実行し、生の出力を論理的に一貫した理論的カテゴリに洗練することを可能にする。
TheTAの有効性を検証するため、金融規制や公衆衛生を含む6つの領域で実験を行った。
以上の結果から,LDA,EMM,CTMなどの従来のモデルでは,優れたコヒーレンスを維持しつつ,ドメイン固有の解釈構造を捕捉し,その性能が著しく向上することが示唆された。
対話型分析プラットフォームを提供することにより、TheTAは社会科学者のための高度な自然言語処理を民主化し、研究結果の信頼性と再現性を確保する。
コードはhttps://github.com/CodeSoul-co/THETAで入手できる。
関連論文リスト
- A Survey of Vibe Coding with Large Language Models [93.88284590533242]
視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。
変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。
この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2025-10-14T11:26:56Z) - A Novel, Human-in-the-Loop Computational Grounded Theory Framework for Big Social Data [8.695136686770772]
結果の信頼性とロバスト性への信頼は、"Human-in-the-loop"手法を採用することに依存している、と我々は主張する。
本稿では,大規模定性的データセットの分析を支援する計算基底理論(CGT)の方法論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-06T13:43:12Z) - Contextual Online Uncertainty-Aware Preference Learning for Human Feedback [13.478503755314344]
RLHF(Reinforcement Learning from Human Feedback)は人工知能において重要なパラダイムとなっている。
最適モデルに基づくオンライン意思決定と統計的推測を同時に行うための新しい統計的枠組みを提案する。
本稿では,大規模マルチタスク言語理解データセット上での大規模言語モデルのランク付けのための人間の嗜好データ分析に,提案手法を適用した。
論文 参考訳(メタデータ) (2025-04-27T19:59:11Z) - MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [51.85759493254735]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。
モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。
より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文 参考訳(メタデータ) (2025-03-12T16:03:03Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Latenrgy: Model Agnostic Latency and Energy Consumption Prediction for Binary Classifiers [0.0]
機械学習システムは、科学分野や産業のイノベーションをますます加速させる。
しかし、特に推論の間、計算オーバーヘッドにおける課題はスケーラビリティと持続可能性を制限する。
この研究は、主に遅延とエネルギー消費に関する一般化予測技術が欠如していることから、文学における重要なギャップに対処する。
論文 参考訳(メタデータ) (2024-12-26T14:51:24Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Syntactic and Semantic-driven Learning for Open Information Extraction [42.65591370263333]
正確で高カバレッジのニューラルオープンIEシステムを構築する上で最大のボトルネックの1つは、大きなラベル付きコーパスの必要性である。
そこで本研究では,人間に反するデータを使わずにオープンなIEモデルを学習するシンタクティクスとセマンティック駆動型学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T02:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。