論文の概要: Machine Identification of High Impact Research through Text and Image
Analysis
- arxiv url: http://arxiv.org/abs/2005.10321v1
- Date: Wed, 20 May 2020 19:12:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:12:53.447707
- Title: Machine Identification of High Impact Research through Text and Image
Analysis
- Title(参考訳): テキストと画像解析による高インパクト研究の機械識別
- Authors: Marko Stamenovic, Jeibo Luo
- Abstract要約: 本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
- 参考スコア(独自算出の注目度): 0.4737991126491218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The volume of academic paper submissions and publications is growing at an
ever increasing rate. While this flood of research promises progress in various
fields, the sheer volume of output inherently increases the amount of noise. We
present a system to automatically separate papers with a high from those with a
low likelihood of gaining citations as a means to quickly find high impact,
high quality research. Our system uses both a visual classifier, useful for
surmising a document's overall appearance, and a text classifier, for making
content-informed decisions. Current work in the field focuses on small datasets
composed of papers from individual conferences. Attempts to use similar
techniques on larger datasets generally only considers excerpts of the
documents such as the abstract, potentially throwing away valuable data. We
rectify these issues by providing a dataset composed of PDF documents and
citation counts spanning a decade of output within two separate academic
domains: computer science and medicine. This new dataset allows us to expand on
current work in the field by generalizing across time and academic domain.
Moreover, we explore inter-domain prediction models - evaluating a classifier's
performance on a domain it was not trained on - to shed further insight on this
important problem.
- Abstract(参考訳): 学術論文の提出や出版の量は増え続けている。
この研究の洪水は様々な分野で進展を約束するが、出力高は本質的にノイズの量を増加させる。
そこで本研究では,高い評価率を持つ論文と,高い評価率を持つ論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
この分野の現在の作業は、個々のカンファレンスの論文で構成される小さなデータセットに焦点を当てている。
大規模なデータセットで同様のテクニックを使用する試みは、一般的に、抽象データのようなドキュメントの抜粋のみを考慮する。
我々は,コンピュータ科学と医学という2つの学術領域に10年間にわたるPDF文書と引用数からなるデータセットを提供することで,これらの問題を是正する。
この新たなデータセットは、時間と学術領域をまたいだ一般化によって、この分野における現在の作業の拡大を可能にします。
さらに、ドメイン間予測モデル(トレーニングされていないドメインで分類器の性能を評価する)を検討し、この重要な問題についてさらなる洞察を得る。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Analyzing the State of Computer Science Research with the DBLP Discovery
Dataset [0.0]
我々は、CSメタデータに隠された暗黙のパターンを明らかにするために、サイエントメトリック分析を行う。
各種ダッシュボード,フィルタ,ビジュアライゼーションを用いてCS出版物を解析するインタラクティブWebアプリケーションであるCS-Insightsシステムを紹介した。
D3とCS-Insightsはどちらもオープンアクセス可能で、CS-Insightsは将来的に他のデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2022-12-01T16:27:42Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Paperswithtopic: Topic Identification from Paper Title Only [5.025654873456756]
人工知能(AI)分野からタイトルとサブフィールドで組み合わせた論文のデータセットを提示する。
また、論文タイトルのみから、論文のAIサブフィールドを予測する方法についても提示する。
変圧器モデルに対しては、モデルの分類過程をさらに説明するために、勾配に基づく注意可視化も提示する。
論文 参考訳(メタデータ) (2021-10-09T06:32:09Z) - Small data problems in political research: a critical replication study [5.698280399449707]
このデータから, ランダムな列車-テスト分割のばらつきに対して, 分類モデルに非常に敏感な結果が得られた。
また、適用された前処理により、データが極めてスパースであることも示している。
以上の結果から,組織評価ツイートの自動分類に関するA&Wの結論は維持できないと論じる。
論文 参考訳(メタデータ) (2021-09-27T09:55:58Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。