論文の概要: Unified Segment-to-Segment Framework for Simultaneous Sequence
Generation
- arxiv url: http://arxiv.org/abs/2310.17940v3
- Date: Tue, 21 Nov 2023 09:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:26:24.786005
- Title: Unified Segment-to-Segment Framework for Simultaneous Sequence
Generation
- Title(参考訳): 同時シーケンス生成のための統一セグメント・ツー・セグメンテーションフレームワーク
- Authors: Shaolei Zhang, Yang Feng
- Abstract要約: 同時シーケンス生成のための統合セグメント・ツー・セグメンテーション・フレームワーク(Seg2Seg)を提案する。
Seg2Segは適応的で統一された方法でマッピングを学習する。
複数の同時生成タスクの実験は、Seg2Segが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 38.27500308373048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous sequence generation is a pivotal task for real-time scenarios,
such as streaming speech recognition, simultaneous machine translation and
simultaneous speech translation, where the target sequence is generated while
receiving the source sequence. The crux of achieving high-quality generation
with low latency lies in identifying the optimal moments for generating,
accomplished by learning a mapping between the source and target sequences.
However, existing methods often rely on task-specific heuristics for different
sequence types, limiting the model's capacity to adaptively learn the
source-target mapping and hindering the exploration of multi-task learning for
various simultaneous tasks. In this paper, we propose a unified
segment-to-segment framework (Seg2Seg) for simultaneous sequence generation,
which learns the mapping in an adaptive and unified manner. During the process
of simultaneous generation, the model alternates between waiting for a source
segment and generating a target segment, making the segment serve as the
natural bridge between the source and target. To accomplish this, Seg2Seg
introduces a latent segment as the pivot between source to target and explores
all potential source-target mappings via the proposed expectation training,
thereby learning the optimal moments for generating. Experiments on multiple
simultaneous generation tasks demonstrate that Seg2Seg achieves
state-of-the-art performance and exhibits better generality across various
tasks.
- Abstract(参考訳): 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳などのリアルタイムシナリオにおいて重要なタスクであり、ソースシーケンスを受信しながらターゲットシーケンスを生成する。
低レイテンシで高品質な生成を実現するのは、ソースとターゲットシーケンスのマッピングを学習して、生成する最適なモーメントを特定することにある。
しかし、既存の手法は、しばしば異なるシーケンスタイプに対するタスク固有のヒューリスティックに依存し、ソースターゲットマッピングを適応的に学習する能力を制限するとともに、様々な同時タスクに対するマルチタスク学習の探索を妨げる。
本稿では,同時シーケンス生成のための統合セグメント・ツー・セグメンテーション・フレームワーク(Seg2Seg)を提案する。
同時生成の過程では、モデルがソースセグメントの待機とターゲットセグメントの生成とを交互に行い、セグメンテーションをソースとターゲットの間の自然なブリッジとして機能させる。
これを達成するため、seg2segは目標とするソース間のピボットとして潜在セグメントを導入し、提案する期待トレーニングを通じてすべてのソース・ターゲットマッピングを探索し、生成の最適なモーメントを学習する。
複数の同時生成タスクの実験は、Seg2Segが最先端のパフォーマンスを達成し、様々なタスクにわたってより良い汎用性を示すことを示した。
関連論文リスト
- Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks [26.007846170517055]
本研究では、時間的ビデオ理解タスクの出力を離散トークンのシーケンスとして定式化するために、Temporal2Seqと呼ばれる単一の統合フレームワークを提案する。
この統一されたトークン表現により、Temporal2Seqは、異なるビデオ理解タスクで単一のアーキテクチャ内でジェネラリストモデルをトレーニングすることができる。
我々はTemporal2Seqジェネリストモデルを3つのタスクの対応するテストセット上で評価し、Temporal2Seqが様々なタスクに対して合理的な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-27T06:37:47Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Advancing Time Series Classification with Multimodal Language Modeling [6.624754582682479]
InstructTimeは、時系列分類を学習から生成までのパラダイムとして再形成するための新しい試みである。
中心となる考え方は、タスク固有の命令と生の時系列の両方をマルチモーダル入力として扱うマルチモーダル理解タスクとして時系列の分類を定式化することである。
ベンチマークデータセット上で大規模な実験が行われ、その結果、InstructTimeの優れたパフォーマンスが明らかになった。
論文 参考訳(メタデータ) (2024-03-19T02:32:24Z) - Generation-Guided Multi-Level Unified Network for Video Grounding [18.402093379973085]
ビデオグラウンディングは、未トリミングされたビデオの中で、クエリ記述に最適なタイムスタンプを見つけることを目的としている。
モーメントレベルのアプローチは、グローバルな視点で各過渡モーメントが境界となる確率を直接予測する。
クリップレベルのものは、異なる時間窓のモーメントをプロポーザルに集約し、最も類似したモーメントを推論し、きめ細かいグラウンドリングにおいてその優位性をもたらす。
論文 参考訳(メタデータ) (2023-03-14T09:48:59Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。