論文の概要: Decoding Funded Research: Comparative Analysis of Topic Models and Uncovering the Effect of Gender and Geographic Location
- arxiv url: http://arxiv.org/abs/2510.18803v1
- Date: Tue, 21 Oct 2025 16:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.940297
- Title: Decoding Funded Research: Comparative Analysis of Topic Models and Uncovering the Effect of Gender and Geographic Location
- Title(参考訳): Decoding Funded Research: Comparison Analysis of Topic Models and Excovering the Effect of Gender and Geographic Location
- Authors: Shirin Tavakoli Kafiabad, Andrea Schiffauerova, Ashkan Ebadi,
- Abstract要約: 本研究は,カナダ自然科学工学研究協議会(NSERC)が出資した18年間(2005-2022年)の研究提案を分析した。
我々は,LDA(Latent Dirichlet Allocation),STM(Structure Topic Modelling),BERTopic(BERTopic)の3つのトピックモデリング手法の比較評価を行った。
以上の結果から, BERTopicはより粒度が高く, 一貫性があり, 創発的なテーマを識別し, 優れた性能を発揮することが示唆された。
- 参考スコア(独自算出の注目度): 0.19116784879310025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing national scientific investment requires a clear understanding of evolving research trends and the demographic and geographical forces shaping them, particularly in light of commitments to equity, diversity, and inclusion. This study addresses this need by analyzing 18 years (2005-2022) of research proposals funded by the Natural Sciences and Engineering Research Council of Canada (NSERC). We conducted a comprehensive comparative evaluation of three topic modelling approaches: Latent Dirichlet Allocation (LDA), Structural Topic Modelling (STM), and BERTopic. We also introduced a novel algorithm, named COFFEE, designed to enable robust covariate effect estimation for BERTopic. This advancement addresses a significant gap, as BERTopic lacks a native function for covariate analysis, unlike the probabilistic STM. Our findings highlight that while all models effectively delineate core scientific domains, BERTopic outperformed by consistently identifying more granular, coherent, and emergent themes, such as the rapid expansion of artificial intelligence. Additionally, the covariate analysis, powered by COFFEE, confirmed distinct provincial research specializations and revealed consistent gender-based thematic patterns across various scientific disciplines. These insights offer a robust empirical foundation for funding organizations to formulate more equitable and impactful funding strategies, thereby enhancing the effectiveness of the scientific ecosystem.
- Abstract(参考訳): 国家の科学的投資を最適化するには、進化する研究トレンドと、特に株式、多様性、包摂性へのコミットメントを考慮して、それらを形作る人口と地理的力を明確に理解する必要がある。
本研究は、カナダ自然科学工学研究協議会(NSERC)が資金提供した18年間(2005-2022年)の研究提案を分析して、このニーズに対処する。
我々は,LDA(Latent Dirichlet Allocation),STM(Structure Topic Modelling),BERTopic(BERTopic)の3つのトピックモデリング手法の総合的比較評価を行った。
また,BERTopicに対するロバストな共変量効果推定を実現するために,COFFEEという新しいアルゴリズムを導入した。
この進歩は、確率論的STMとは異なり、BERTopicは共変量解析のネイティブ機能を欠いているため、大きなギャップに対処する。
以上の結果から, BERTopicは, 人工知能の急速な拡張など, よりきめ細やかな, 一貫性のある, 創発的なテーマを一貫して特定することによって, 優れた性能を発揮した。
さらに、COFFEEを動力とする共変量解析により、地方研究の専門化が確定し、様々な科学分野にまたがる一貫したジェンダーベースのテーマパターンが明らかになった。
これらの知見は、より公平で影響力のある資金調達戦略を定式化し、科学エコシステムの有効性を高めるための、しっかりとした実証的な基盤を提供する。
関連論文リスト
- Evaluating Large Language Models in Scientific Discovery [91.732562776782]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。
生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。
このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文 参考訳(メタデータ) (2025-12-17T16:20:03Z) - Cross Domain Evaluation of Multimodal Chain-of-Thought Reasoning of different datasets into the Amazon CoT Framework [1.7842332554022695]
本研究はマルチモーダル・チェーン・オブ・ソート(Multimodal-CoT)推論の包括的解析を行う。
A-OKVQA,OKVQA,ChartQAのデータセット上での有効性を評価する。
その結果,視覚統合は理性発生における幻覚を著しく減少させるが,CoT推論の有効性は質問の種類によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-11-24T16:20:02Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - Reimagining Urban Science: Scaling Causal Inference with Large Language Models [39.231736674554995]
都市因果研究は、都市を形成する複雑なダイナミックなプロセスを理解するために不可欠である。
現在の慣行は、しばしば非効率で偏りのある仮説の定式化によって制約される。
本研究では,仮説生成,データエンジニアリング,実験設計と実行,政策洞察による結果解釈の4つの異なるモジュールエージェントからなる概念的枠組みであるUrbanCIAを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:58:11Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and
Why? [84.46288849132634]
本稿では、因果発見と推論技術を用いて、科学分野における研究トピックの進化を分析するための体系的な枠組みを提案する。
我々は3つの変数を定義し、NLPにおける研究トピックの進化の多様な側面を包含する。
我々は因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T11:08:00Z) - Research topic trend prediction of scientific papers based on spatial
enhancement and dynamic graph convolution network [6.73620879761516]
近年,科学研究への社会投資の増加に伴い,様々な分野の研究成果が著しく増加している。
様々な研究テーマ間の相関関係がますます高まっているため、多数の研究テーマの間には一定の依存関係関係がある。
本稿では,ディープニューラルネットワークに基づくホットネス予測アルゴリズム,時間畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2022-03-30T12:38:52Z) - A Multi-criteria Approach to Evolve Sparse Neural Architectures for
Stock Market Forecasting [0.0]
本研究は, 市場指標の移動予測のための, 効率的かつ同相なニューラルアーキテクチャを進化させる新しい枠組みを提案する。
新しい探索パラダイムである2次元スワム (2DS) が, マルチ基準ニューラルアーキテクチャサーチのために提案されている。
本研究の結果は,提案手法がより優れた一般化能力を持つ同相ネットワークを進化させることができることを示すものである。
論文 参考訳(メタデータ) (2021-11-15T19:44:10Z) - A Heterogeneous Dynamical Graph Neural Networks Approach to Quantify
Scientific Impact [39.9627229543809]
論文や著者の累積的影響を明示的にモデル化し,予測するために,異種動的グラフニューラルネットワーク(HDGNN)に基づくアプローチを提案する。
実際の引用データセットで行った実験は、論文と著者の両方の影響を予測する優れた性能を示した。
論文 参考訳(メタデータ) (2020-03-26T17:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。