論文の概要: Cracking Double-Blind Review: Authorship Attribution with Deep Learning
- arxiv url: http://arxiv.org/abs/2211.07467v3
- Date: Mon, 3 Jul 2023 12:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 15:21:43.482806
- Title: Cracking Double-Blind Review: Authorship Attribution with Deep Learning
- Title(参考訳): ダブルブラインドレビュー: 深層学習による著者の貢献
- Authors: Leonard Bauersfeld and Angel Romero and Manasi Muglikar and Davide
Scaramuzza
- Abstract要約: 本稿では、匿名の原稿を著者に属性付けるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。
我々は、arXivで公開されているすべての研究論文を200万冊以上の原稿に活用する。
本手法は, 論文の最大73%を正解する, 前代未聞の著者帰属精度を実現する。
- 参考スコア(独自算出の注目度): 43.483063713471935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Double-blind peer review is considered a pillar of academic research because
it is perceived to ensure a fair, unbiased, and fact-centered scientific
discussion. Yet, experienced researchers can often correctly guess from which
research group an anonymous submission originates, biasing the peer-review
process. In this work, we present a transformer-based, neural-network
architecture that only uses the text content and the author names in the
bibliography to attribute an anonymous manuscript to an author. To train and
evaluate our method, we created the largest authorship identification dataset
to date. It leverages all research papers publicly available on arXiv amounting
to over 2 million manuscripts. In arXiv-subsets with up to 2,000 different
authors, our method achieves an unprecedented authorship attribution accuracy,
where up to 73% of papers are attributed correctly. We present a scaling
analysis to highlight the applicability of the proposed method to even larger
datasets when sufficient compute capabilities are more widely available to the
academic community. Furthermore, we analyze the attribution accuracy in
settings where the goal is to identify all authors of an anonymous manuscript.
Thanks to our method, we are not only able to predict the author of an
anonymous work, but we also provide empirical evidence of the key aspects that
make a paper attributable. We have open-sourced the necessary tools to
reproduce our experiments.
- Abstract(参考訳): 二重盲検ピアレビューは、公平で偏りのない、事実中心の科学的な議論を確実にするため、学術研究の柱と考えられている。
しかし、経験豊富な研究者たちは、どの研究グループが匿名で提出したのかを正確に推測することができ、ピアレビュープロセスに偏っている。
本研究では,著者に匿名の原稿を属性付けるために,書誌中のテキストコンテンツと著者名のみを使用するトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。
提案手法を訓練し,評価するために,これまでで最大の著者識別データセットを作成した。
arXivで公開されているすべての研究論文を活用し、200万冊以上の原稿を公開している。
最大2000名の著者によるarXiv-subsetでは,論文の73%が正確である前例のない著者帰属精度を達成している。
本稿では,提案手法が学術コミュニティに広く普及している場合に,さらに大きなデータセットに適用可能であることを示すスケーリング分析を提案する。
さらに,匿名原稿の著者を識別することを目的とした設定において,帰属精度を解析した。
この手法により,匿名の著作の著者を予測できるだけでなく,論文を帰属させる重要な側面の実証的証拠も提供する。
実験を再現するために必要なツールをオープンソースとして公開しました。
関連論文リスト
- Deep Author Name Disambiguation using DBLP Data [7.081604594416337]
著者名Ambiguity(ANA)は、デジタル図書館において重要なオープン問題と考えられている。
本稿では,著者名と現実の実体をリンクする著者名曖昧化(AND)アプローチを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:50:00Z) - arXivEdits: Understanding the Human Revision Process in Scientific
Writing [17.63505461444103]
論文執筆におけるテキストリビジョン研究のための完全な計算フレームワークを提供する。
最初にarXivEditsを紹介した。これは、arXivの751個の全文からなる注釈付きコーパスで、複数のバージョンにまたがってゴールドの文をアライメントする。
データ駆動分析をサポートし、論文の改訂のために研究者が実践する一般的な戦略を明らかにします。
論文 参考訳(メタデータ) (2022-10-26T22:50:24Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Tag-Aware Document Representation for Research Paper Recommendation [68.8204255655161]
本稿では,ユーザによって割り当てられたソーシャルタグに基づいて,研究論文の深い意味表現を活用するハイブリッドアプローチを提案する。
提案手法は,評価データが極めて少ない場合でも研究論文の推薦に有効である。
論文 参考訳(メタデータ) (2022-09-08T09:13:07Z) - Whois? Deep Author Name Disambiguation using Bibliographic Data [7.081604594416337]
著者名Ambiguity(ANA)は、デジタル図書館において重要なオープン問題と考えられている。
本稿では,著者名と現実の実体をリンクする著者名曖昧化(AND)アプローチを提案する。
論文 参考訳(メタデータ) (2022-07-11T11:03:39Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Bib2Auth: Deep Learning Approach for Author Disambiguation using
Bibliographic Data [4.817368273632451]
著者名と現実の実体をリンクする新しい手法を,共著者パターンと研究領域に頼って提案する。
教師付きディープラーニングモデルでは,著者と共著者との関係や研究領域を把握し,著者を識別する。
Bib2Authは比較的大きなデータセットで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-07-09T12:25:11Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Automatic generation of reviews of scientific papers [1.1999555634662633]
本稿では,ユーザ定義クエリに対応するレビューペーパーの自動生成手法を提案する。
第1部では、共引用グラフなどの文献パラメータによって、この領域における重要な論文を識別する。
第2段階では、BERTベースのアーキテクチャを使用して、これらの重要な論文の抽出要約のために既存のレビューをトレーニングします。
論文 参考訳(メタデータ) (2020-10-08T17:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。