論文の概要: Semantic maps and metrics for science Semantic maps and metrics for
science using deep transformer encoders
- arxiv url: http://arxiv.org/abs/2104.05928v1
- Date: Tue, 13 Apr 2021 04:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 23:37:49.355759
- Title: Semantic maps and metrics for science Semantic maps and metrics for
science using deep transformer encoders
- Title(参考訳): 深部変圧器エンコーダを用いた科学用セマンティックマップとメトリクス
- Authors: Brendan Chambers and James Evans
- Abstract要約: ディープトランスフォーマーネットワークによる自然言語理解の最近の進歩は、マッピング科学に新たな可能性をもたらす。
トランスフォーマー埋め込みモデルは、異なる言語文脈で異なる関連と意味の陰を捉えます。
本稿では,これらのツールを用いて学術文書を符号化する手法について報告する。
- 参考スコア(独自算出の注目度): 1.599072005190786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing deluge of scientific publications demands text analysis tools
that can help scientists and policy-makers navigate, forecast and beneficially
guide scientific research. Recent advances in natural language understanding
driven by deep transformer networks offer new possibilities for mapping
science. Because the same surface text can take on multiple and sometimes
contradictory specialized senses across distinct research communities,
sensitivity to context is critical for infometric applications. Transformer
embedding models such as BERT capture shades of association and connotation
that vary across the different linguistic contexts of any particular word or
span of text. Here we report a procedure for encoding scientific documents with
these tools, measuring their improvement over static word embeddings in a
nearest-neighbor retrieval task. We find discriminability of contextual
representations is strongly influenced by choice of pooling strategy for
summarizing the high-dimensional network activations. Importantly, we note that
fundamentals such as domain-matched training data are more important than
state-of-the-art NLP tools. Yet state-of-the-art models did offer significant
gains. The best approach we investigated combined domain-matched pretraining,
sound pooling, and state-of-the-art deep transformer network encoders. Finally,
with the goal of leveraging contextual representations from deep encoders, we
present a range of measurements for understanding and forecasting research
communities in science.
- Abstract(参考訳): 科学出版物の増加は、科学者や政策立案者が科学研究をナビゲートし、予測し、有益に導くのに役立つテキスト分析ツールを要求する。
ディープトランスフォーマーネットワークによる自然言語理解の最近の進歩は、マッピング科学に新たな可能性をもたらす。
同じ表面テキストは、異なる研究コミュニティにまたがって複数の、時には矛盾する特殊な感覚を取ることができるため、インフォメトリ応用にはコンテキストに対する感受性が不可欠である。
BERTのようなトランスフォーマー埋め込みモデルは、特定の単語やテキストのスパンの異なる言語文脈で異なる関連や意味の陰を捉えている。
本稿では,これらのツールを用いて科学的文書を符号化する手法について報告する。
文脈表現の判別性は,高次元ネットワークアクティベーションを要約するプール戦略の選択に強く影響している。
重要なことに、ドメインマッチングトレーニングデータのような基礎は最先端のNLPツールよりも重要である。
しかし、最新モデルは大きな進歩を遂げた。
ドメインマッチング事前学習, サウンドプーリング, および最先端のディープトランスネットワークエンコーダの組み合わせについて検討した。
最後に,深層エンコーダからの文脈表現を活用することを目的として,科学研究コミュニティの理解と予測のための様々な測定値を提案する。
関連論文リスト
- From Word Vectors to Multimodal Embeddings: Techniques, Applications, and Future Directions For Large Language Models [17.04716417556556]
本稿では,分布仮説や文脈的類似性といった基礎概念を概観する。
本稿では, ELMo, BERT, GPTなどのモデルにおいて, 静的な埋め込みと文脈的埋め込みの両方について検討する。
議論は文章や文書の埋め込みにまで拡張され、集約メソッドや生成トピックモデルをカバーする。
モデル圧縮、解釈可能性、数値エンコーディング、バイアス緩和といった高度なトピックを分析し、技術的な課題と倫理的意味の両方に対処する。
論文 参考訳(メタデータ) (2024-11-06T15:40:02Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - A Survey of Text Representation Methods and Their Genealogy [0.0]
近年、高度にスケーラブルな人工神経ネットワークベースのテキスト表現法が出現し、自然言語処理の分野は前例のない成長と高度化が見られた。
我々は、系譜にそれらを配置し、テキスト表現方法の分類を概念化し、最先端の状態を検証し、説明することによって、現在のアプローチに関する調査を行う。
論文 参考訳(メタデータ) (2022-11-26T15:22:01Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - TopicBERT: A Transformer transfer learning based memory-graph approach
for multimodal streaming social media topic detection [8.338441212378587]
急激な短いメッセージと、様々なトピックにまたがる大規模なデータスケールを持つソーシャルネットワークは、多くの研究者の関心を集めている。
ビッグデータの5'Vとして知られるこれらのソーシャルネットワークの特性は、大規模なソーシャルネットワークデータセットやデータストリームに適用される多くのユニークで啓蒙的なアルゴリズムやテクニックを生み出している。
論文 参考訳(メタデータ) (2020-08-16T10:39:50Z) - An Evaluation of Recent Neural Sequence Tagging Models in Turkish Named
Entity Recognition [5.161531917413708]
本研究では,条件付きランダムフィールド層を有する変圧器ベースネットワークを提案する。
本研究は,移動学習が形態的に豊かな言語処理に与える影響を定量化する文献に寄与する。
論文 参考訳(メタデータ) (2020-05-14T06:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。