論文の概要: A Pipeline for Analysing Grant Applications
- arxiv url: http://arxiv.org/abs/2210.16843v1
- Date: Sun, 30 Oct 2022 13:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:21:43.690999
- Title: A Pipeline for Analysing Grant Applications
- Title(参考訳): 特許出願分析用パイプライン
- Authors: Shuaiqun Pan, Sergio J. Rodr\'iguez M\'endez, Kerry Taylor
- Abstract要約: 本稿では,提案手法が意図した革新的なプロジェクト提案を効果的に識別するかどうかを考察する。
グラント申請は、レビュアーが割り当てた「特定の革新と創造性」(IC)スコアを含むピアレビューされた研究提案である。
本稿では,特徴を符号化した文書上のランダムフォレスト(RF)分類器として,最高の性能を持つモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data mining techniques can transform massive amounts of unstructured data
into quantitative data that quickly reveal insights, trends, and patterns
behind the original data. In this paper, a data mining model is applied to
analyse the 2019 grant applications submitted to an Australian Government
research funding agency to investigate whether grant schemes successfully
identifies innovative project proposals, as intended. The grant applications
are peer-reviewed research proposals that include specific ``innovation and
creativity'' (IC) scores assigned by reviewers. In addition to predicting the
IC score for each research proposal, we are particularly interested in
understanding the vocabulary of innovative proposals. In order to solve this
problem, various data mining models and feature encoding algorithms are studied
and explored. As a result, we propose a model with the best performance, a
Random Forest (RF) classifier over documents encoded with features denoting the
presence or absence of unigrams. In specific, the unigram terms are encoded by
a modified Term Frequency - Inverse Document Frequency (TF-IDF) algorithm,
which only implements the IDF part of TF-IDF. Besides the proposed model, this
paper also presents a rigorous experimental pipeline for analysing grant
applications, and the experimental results prove its feasibility.
- Abstract(参考訳): データマイニング技術は、大量の非構造化データを量的データに変換し、元のデータの背後にある洞察、傾向、パターンを素早く示すことができる。
本論文では,2019年にオーストラリア政府の研究資金提供機関に提出された助成金申請を解析するためにデータマイニングモデルを適用し,提案案が意図した革新的なプロジェクト提案を効果的に識別するかどうかを検討する。
認可申請は、査読者によって割り当てられた特定の'革新と創造'(IC)スコアを含む査読された研究提案である。
各研究提案のicスコアの予測に加えて,革新的提案の語彙の理解にも特に関心を持っている。
この問題を解決するために,様々なデータマイニングモデルと特徴符号化アルゴリズムを研究・検討した。
その結果,一グラムの存在や不在を示す特徴を符号化した文書上のランダムフォレスト(RF)分類器として,最高の性能を持つモデルを提案する。
具体的には、ユニグラム項はTF-IDFのIDF部分のみを実装したTF-IDF (Term Frequency - Inverse Document Frequency)アルゴリズムによって符号化される。
提案するモデルに加えて,特許出願を分析するための厳密な実験パイプラインも提示し,その実現可能性を示す。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Unified Framework for Generative Data Augmentation: A Comprehensive Survey [0.0]
GDA(Generative Data Augmentation)は、機械学習アプリケーションにおけるデータの不足を軽減するための有望なテクニックとして登場した。
この論文は、GDAランドスケープの総合的な調査と統合されたフレームワークを提示している。
論文 参考訳(メタデータ) (2023-09-30T07:01:08Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - A Data-Centric AI Paradigm Based on Application-Driven Fine-grained
Dataset Design [2.2223262422197907]
本稿では,産業アプリケーションによって駆動されるデータセットのきめ細かい設計のための新しいパラダイムを提案する。
データおよびアプリケーション要件の本質的な特徴に応じて,正および負のサンプルセットを柔軟に選択する。
従来のデータ設計手法と比較して,本手法はより良い結果が得られ,誤報を効果的に低減する。
論文 参考訳(メタデータ) (2022-09-20T03:56:53Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Novel Applications for VAE-based Anomaly Detection Systems [5.065947993017157]
深層生成モデリング(DGM)は、与えられたデータセットから始まり、新規で見えないデータを生成することができる。
この技術が有望な応用を示すにつれて、多くの倫理的問題がもたらされる。
研究は、異なるバイアスが深層学習モデルに影響を与え、誤った表現のような社会的問題を引き起こすことを示している。
論文 参考訳(メタデータ) (2022-04-26T20:30:37Z) - A survey on Variational Autoencoders from a GreenAI perspective [0.0]
変分オートエンコーダ(VAE)は、統計や情報理論の要素と深層ニューラルネットワークが提供する柔軟性を融合する強力な生成モデルである。
この記事では、最も成功し、最近のVAEのバリエーションについて比較評価する。
論文 参考訳(メタデータ) (2021-03-01T15:26:39Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。