論文の概要: Distilling Transformers for Neural Cross-Domain Search
- arxiv url: http://arxiv.org/abs/2108.03322v1
- Date: Fri, 6 Aug 2021 22:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 14:58:48.495302
- Title: Distilling Transformers for Neural Cross-Domain Search
- Title(参考訳): ニューラルクロスドメイン探索のための蒸留変圧器
- Authors: Colin B. Clement, Chen Wu, Dawn Drain, Neel Sundaresan
- Abstract要約: 我々はシーケンス・ツー・シーケンス・モデルが概念的には理想であると主張する。
我々は,データ拡張スキームとして,新しい蒸留目標を導出する。
自然言語ソースコード検索をクロスドメイン検索のケーススタディとして用い,近年の自然言語コード検索ベンチマークであるCodeSearchNetチャレンジの現在のリーダを大きく改善することで,このアイデアの有効性を実証する。
- 参考スコア(独自算出の注目度): 9.865125804658991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained transformers have recently clinched top spots in the gamut of
natural language tasks and pioneered solutions to software engineering tasks.
Even information retrieval has not been immune to the charm of the transformer,
though their large size and cost is generally a barrier to deployment. While
there has been much work in streamlining, caching, and modifying transformer
architectures for production, here we explore a new direction: distilling a
large pre-trained translation model into a lightweight bi-encoder which can be
efficiently cached and queried. We argue from a probabilistic perspective that
sequence-to-sequence models are a conceptually ideal---albeit highly
impractical---retriever. We derive a new distillation objective, implementing
it as a data augmentation scheme. Using natural language source code search as
a case study for cross-domain search, we demonstrate the validity of this idea
by significantly improving upon the current leader of the CodeSearchNet
challenge, a recent natural language code search benchmark.
- Abstract(参考訳): 事前学習されたトランスフォーマーは、最近自然言語タスクの領域でトップスポットを獲得し、ソフトウェアエンジニアリングタスクのソリューションの先駆者となった。
情報検索でさえ変圧器の魅力には影響しないが、その大きさとコストは一般的に展開の障壁である。
生産用のトランスフォーマーアーキテクチャの合理化、キャッシュ、修正には多くの作業があったが、ここでは新しい方向性を探る: 大きなトレーニング済みの翻訳モデルを軽量なバイエンコーダに蒸留し、効率よくキャッシュし、クエリすることができる。
我々は、シーケンス・ツー・シーケンス・モデルが概念的には理想である、という確率論的観点から論じる。
我々は,データ拡張スキームとして,新しい蒸留目標を導出する。
自然言語ソースコード検索をクロスドメイン検索のケーススタディとして用い,近年の自然言語コード検索ベンチマークであるCodeSearchNetチャレンジの現在のリーダを大きく改善することで,このアイデアの有効性を実証する。
関連論文リスト
- Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers [0.21756081703276003]
この論文は、この目標を前進させるモデルの方法と分析を提供する。
使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。
モデルライクリフと出力品質のばらつきに関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-08-29T03:50:24Z) - Large Sequence Models for Sequential Decision-Making: A Survey [33.35835438923926]
トランスフォーマーはRLコミュニティへの関心が高まり、顕著な有効性と一般化性を持った多くのアプローチを生み出した。
本稿では, シーケンシャル意思決定における大規模シーケンスモデルの有効性向上を目的とした, 今後の研究に向けて, 様々な方法を提案する。
論文 参考訳(メタデータ) (2023-06-24T12:06:26Z) - Quality and Cost Trade-offs in Passage Re-ranking Task [0.0]
本稿では,情報検索パイプラインのランキングステップにおいて,適切なアーキテクチャを選択するかという問題に焦点をあてる。
コルベルトアーキテクチャやポリエンコーダアーキテクチャなどの遅延相互作用モデルとその修正について検討した。
また,検索インデックスのメモリフットプリントの処理を行い,変換器エンコーダから出力ベクトルを二項化するためにラーニング・ツー・ハッシュ法を適用しようとした。
論文 参考訳(メタデータ) (2021-11-18T19:47:45Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文 参考訳(メタデータ) (2020-09-14T20:38:14Z) - AutoTrans: Automating Transformer Design via Reinforced Architecture
Search [52.48985245743108]
本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-09-04T08:46:22Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。