論文の概要: DOCENT: Learning Self-Supervised Entity Representations from Large
Document Collections
- arxiv url: http://arxiv.org/abs/2102.13247v1
- Date: Fri, 26 Feb 2021 01:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:55:05.327150
- Title: DOCENT: Learning Self-Supervised Entity Representations from Large
Document Collections
- Title(参考訳): docent: 大きなドキュメントコレクションから自己教師ありのエンティティ表現を学ぶ
- Authors: Yury Zemlyanskiy, Sudeep Gandhe, Ruining He, Bhargav Kanagal, Anirudh
Ravula, Juraj Gottweis, Fei Sha and Ilya Eckstein
- Abstract要約: 本稿では、大量の関連テキストからリッチな自己教師型エンティティ表現を学習する。
事前学習すると、これらのモデルは、ランク付けされた検索、知識ベース補完、質問応答など、複数のエンティティ中心のタスクに適用できる。
我々は,従来のアプローチとは異なり,単語や実体を共同で予測する訓練戦略をいくつか提示する。
- 参考スコア(独自算出の注目度): 18.62873757515885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores learning rich self-supervised entity representations from
large amounts of the associated text. Once pre-trained, these models become
applicable to multiple entity-centric tasks such as ranked retrieval, knowledge
base completion, question answering, and more. Unlike other methods that
harvest self-supervision signals based merely on a local context within a
sentence, we radically expand the notion of context to include any available
text related to an entity. This enables a new class of powerful, high-capacity
representations that can ultimately distill much of the useful information
about an entity from multiple text sources, without any human supervision.
We present several training strategies that, unlike prior approaches, learn
to jointly predict words and entities -- strategies we compare experimentally
on downstream tasks in the TV-Movies domain, such as MovieLens tag prediction
from user reviews and natural language movie search. As evidenced by results,
our models match or outperform competitive baselines, sometimes with little or
no fine-tuning, and can scale to very large corpora.
Finally, we make our datasets and pre-trained models publicly available. This
includes Reviews2Movielens (see https://goo.gle/research-docent ), mapping the
up to 1B word corpus of Amazon movie reviews (He and McAuley, 2016) to
MovieLens tags (Harper and Konstan, 2016), as well as Reddit Movie Suggestions
(see https://urikz.github.io/docent ) with natural language queries and
corresponding community recommendations.
- Abstract(参考訳): 本稿では,大量のテキストからリッチな自己教師型エンティティ表現を学習する。
事前学習すると、これらのモデルは、ランク付けされた検索、知識ベース補完、質問応答など、複数のエンティティ中心のタスクに適用できる。
文内のローカルコンテキストのみに基づいて自己超越信号を抽出する他の方法とは異なり、コンテキストの概念を根本的に拡張し、エンティティに関連する任意のテキストを含める。
これにより、人間の監督なしに、複数のテキストソースからエンティティに関する有用な情報の多くを抽出できる、強力で高容量な表現の新たなクラスが可能になる。
我々は,従来のアプローチとは異なり,ユーザレビューからのMovieLensタグの予測や自然言語映画検索など,TV-Moviesドメインの下流タスクで実験的に比較した,単語やエンティティを共同で予測する戦略をいくつか提示する。
結果から証明されたように、私たちのモデルは、ほとんど、あるいは全く微調整せずに、競合ベースラインよりも優れており、非常に大きなコーパスにスケールできます。
最後に、データセットと事前トレーニング済みモデルを一般公開します。
これにはReviews2Movielens(https://goo.gle/research-docent 参照)、Amazonの映画レビュー(He and McAuley, 2016)の1BワードコーパスをMovieLensタグ(Harper and Konstan, 2016)にマッピングし、Reddit Movie Suggestions(https://urikz.github.io/docent 参照)を自然言語クエリと対応するコミュニティレコメンデーションでマッピングする。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。