論文の概要: RPT: Toward Transferable Model on Heterogeneous Researcher Data via
Pre-Training
- arxiv url: http://arxiv.org/abs/2110.07336v1
- Date: Fri, 8 Oct 2021 03:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 05:12:36.286832
- Title: RPT: Toward Transferable Model on Heterogeneous Researcher Data via
Pre-Training
- Title(参考訳): RPT:事前学習による異種研究者データの転送可能モデルに向けて
- Authors: Ziyue Qiao, Yanjie Fu, Pengyang Wang, Meng Xiao, Zhiyuan Ning, Yi Du,
Yuanchun Zhou
- Abstract要約: マルチタスク型自己教師型学習ベース研究者データ事前学習モデル RPT を提案する。
研究者のデータをセマンティックドキュメントセットとコミュニティグラフに分割する。
モデル全体を学習するための3つの自己教師型学習目標を提案する。
- 参考スコア(独自算出の注目度): 19.987304448524043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growth of the academic engines, the mining and analysis acquisition
of massive researcher data, such as collaborator recommendation and researcher
retrieval, has become indispensable. It can improve the quality of services and
intelligence of academic engines. Most of the existing studies for researcher
data mining focus on a single task for a particular application scenario and
learning a task-specific model, which is usually unable to transfer to
out-of-scope tasks. The pre-training technology provides a generalized and
sharing model to capture valuable information from enormous unlabeled data. The
model can accomplish multiple downstream tasks via a few fine-tuning steps. In
this paper, we propose a multi-task self-supervised learning-based researcher
data pre-training model named RPT. Specifically, we divide the researchers'
data into semantic document sets and community graph. We design the
hierarchical Transformer and the local community encoder to capture information
from the two categories of data, respectively. Then, we propose three
self-supervised learning objectives to train the whole model. Finally, we also
propose two transfer modes of RPT for fine-tuning in different scenarios. We
conduct extensive experiments to evaluate RPT, results on three downstream
tasks verify the effectiveness of pre-training for researcher data mining.
- Abstract(参考訳): 学術機関の成長に伴い,共同研究者推薦や研究者検索などの膨大な研究者データのマイニングと分析の獲得が不可欠となっている。
学術機関のサービス品質とインテリジェンスを向上させることができる。
研究者データマイニングのための既存の研究のほとんどは、特定のアプリケーションシナリオのための単一のタスクと、通常スコープ外のタスクに転送できないタスク固有のモデルを学習することに焦点を当てている。
事前学習技術は、膨大なラベルのないデータから貴重な情報をキャプチャする、一般化された共有モデルを提供する。
モデルはいくつかの微調整ステップを通じて複数のダウンストリームタスクを実行できる。
本稿では,多タスクの自己教師付き学習に基づくデータ事前学習モデルrptを提案する。
具体的には、研究者のデータをセマンティックドキュメントセットとコミュニティグラフに分割する。
階層型トランスフォーマとローカル・コミュニティ・エンコーダをそれぞれ2つのカテゴリのデータから情報を取り込むように設計する。
そこで本研究では,モデル全体を学習するための3つの自己教師付き学習目標を提案する。
最後に、異なるシナリオで微調整を行うためのrptの2つの転送モードを提案する。
rptの評価のために広範な実験を行い,3つのダウンストリームタスクの結果から,研究者データマイニングにおける事前トレーニングの有効性を検証した。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Divide and Conquer: Hybrid Pre-training for Person Search [40.13016375392472]
本研究では,サブタスクデータのみを用いた人物検索のためのハイブリッド事前学習フレームワークを提案する。
我々のモデルは、人物探索法、微調整データ、事前学習データ、モデルバックボーンなど、多様なプロトコルで大幅に改善できる。
私たちのコードと事前訓練されたモデルは、人検索コミュニティにプラグイン・アンド・プレイの使用のためにリリースされます。
論文 参考訳(メタデータ) (2023-12-13T08:33:50Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - A Survey on Generative Modeling with Limited Data, Few Shots, and Zero
Shot [33.564516823250806]
機械学習において、生成モデリングは、トレーニングデータ分布と統計的に類似した新しいデータを生成することを目的としている。
これは、データ取得が困難である場合、例えば医療アプリケーションにおいて重要なトピックである。
GM-DCタスク間のインタラクションとアプローチについて検討する。
論文 参考訳(メタデータ) (2023-07-26T12:05:08Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Wizard of Search Engine: Access to Information Through Conversations
with Search Engines [58.53420685514819]
我々は3つの側面からCISの研究を促進するために努力している。
目的検出(ID)、キーフレーズ抽出(KE)、行動予測(AP)、クエリ選択(QS)、通過選択(PS)、応答生成(RG)の6つのサブタスクでCIS用のパイプラインを定式化する。
検索エンジンのウィザード(WISE)と呼ばれるベンチマークデータセットをリリースし、CISのすべての側面について包括的かつ詳細な調査を可能にします。
論文 参考訳(メタデータ) (2021-05-18T06:35:36Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。