論文の概要: Searchable Hidden Intermediates for End-to-End Models of Decomposable
Sequence Tasks
- arxiv url: http://arxiv.org/abs/2105.00573v1
- Date: Sun, 2 May 2021 23:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 13:58:30.646281
- Title: Searchable Hidden Intermediates for End-to-End Models of Decomposable
Sequence Tasks
- Title(参考訳): decomposable sequenceタスクのエンド・ツー・エンドモデルのための検索可能な隠れ中間子
- Authors: Siddharth Dalmia, Brian Yan, Vikas Raunak, Florian Metze and Shinji
Watanabe
- Abstract要約: シーケンスモデルの中間段階で検索可能な隠れた表現を学ぶために,合成性を利用するエンドツーエンドのフレームワークを提案する。
提案手法の一例は、音声認識サブタスクから検索可能な隠れ中間子を抽出する音声翻訳用マルチデコーダモデルである。
- 参考スコア(独自算出の注目度): 77.55297077599865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end approaches for sequence tasks are becoming increasingly popular.
Yet for complex sequence tasks, like speech translation, systems that cascade
several models trained on sub-tasks have shown to be superior, suggesting that
the compositionality of cascaded systems simplifies learning and enables
sophisticated search capabilities. In this work, we present an end-to-end
framework that exploits compositionality to learn searchable hidden
representations at intermediate stages of a sequence model using decomposed
sub-tasks. These hidden intermediates can be improved using beam search to
enhance the overall performance and can also incorporate external models at
intermediate stages of the network to re-score or adapt towards out-of-domain
data. One instance of the proposed framework is a Multi-Decoder model for
speech translation that extracts the searchable hidden intermediates from a
speech recognition sub-task. The model demonstrates the aforementioned benefits
and outperforms the previous state-of-the-art by around +6 and +3 BLEU on the
two test sets of Fisher-CallHome and by around +3 and +4 BLEU on the
English-German and English-French test sets of MuST-C.
- Abstract(参考訳): シーケンスタスクのエンドツーエンドアプローチは、ますます人気が高まっている。
しかし、音声翻訳のような複雑なシーケンスタスクでは、サブタスクで訓練された複数のモデルをカスケードするシステムは優れていることが示されており、カスケードされたシステムの構成性が学習を単純化し、高度な検索能力を可能にすることを示唆している。
本研究では,分割されたサブタスクを用いたシーケンスモデルの中間段階における探索可能な隠れ表現の学習に構成性を利用するエンドツーエンドフレームワークを提案する。
これらの隠れた中間層はビームサーチを使って全体的な性能を向上させることができ、ネットワークの中間段階で外部モデルを組み込んでドメイン外データに再スコアリングしたり適応することもできる。
提案手法の一例は、音声認識サブタスクから検索可能な隠れ中間子を抽出する音声翻訳用マルチデコーダモデルである。
このモデルは前述の利点を示し、フィッシャー・コールホームの2つのテストセットで+6と+3 bleu、英語とフランス語の must-c のテストセットで+3と+4 bleu を上回っている。
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - Multimodal Sequential Generative Models for Semi-Supervised Language
Instruction Following [26.386772715777223]
本稿では,タスクの指示における半教師付き学習のためのマルチモーダル生成モデルを提案する。
モデルは、ペア化されたデータの共有表現を学習し、未ペアデータの再構築によって半教師付き学習を可能にする。
BabyAIおよびRoom-to-Room環境における実験により,提案手法は未ペアデータを活用することにより,命令の処理性能を向上させることを示した。
論文 参考訳(メタデータ) (2022-12-29T03:23:43Z) - Prompt-Matched Semantic Segmentation [96.99924127527002]
本研究の目的は、事前学習した基礎モデルを、画像意味セグメンテーションの下流の様々なタスクに効果的に適応する方法を検討することである。
本稿では,タスク指向のチューニングに適応的に視覚的プロンプトを生成するとともに,基礎モデルの本来の構造を維持できる新しい階層間プロンプトマッチングフレームワークを提案する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2つのステージ間で階層的に補間し、各タスクに対して適切なプロンプトを学習する。
論文 参考訳(メタデータ) (2022-08-22T09:12:53Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Speech Sequence Embeddings using Nearest Neighbors Contrastive Learning [15.729812221628382]
教師なしのコントラスト学習目標を用いてトレーニング可能な,シンプルなニューラルエンコーダアーキテクチャを提案する。
近年の自己教師型音声表現の上に構築されている場合,本手法は反復的に適用でき,競争力のあるSSEが得られることを示す。
論文 参考訳(メタデータ) (2022-04-11T14:28:01Z) - The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained
Sequence-to-Sequence Models [34.94331039746062]
拡張モノデュオ」と呼ばれるテキストランキング問題に対処する設計パターンを提案する。
基本となる設計は、標準のマルチステージランキングアーキテクチャ内で事前訓練されたシーケンスからシーケンスへのモデルに依存しています。
我々は、MS MARCOパスと文書ランキングタスク、TREC 2020 Deep Learning Track、そして設計を検証するTREC-COVIDチャレンジの実験的結果を示す。
論文 参考訳(メタデータ) (2021-01-14T15:29:54Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。