論文の概要: Abstractive Summarization of Spoken and Written Instructions with BERT
- arxiv url: http://arxiv.org/abs/2008.09676v3
- Date: Wed, 26 Aug 2020 20:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 20:52:38.751296
- Title: Abstractive Summarization of Spoken and Written Instructions with BERT
- Title(参考訳): BERTによる音声と文字の抽象要約
- Authors: Alexandra Savelieva, Bryan Au-Yeung, and Vasanth Ramani
- Abstract要約: 本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
- 参考スコア(独自算出の注目度): 66.14755043607776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarization of speech is a difficult problem due to the spontaneity of the
flow, disfluencies, and other issues that are not usually encountered in
written texts. Our work presents the first application of the BERTSum model to
conversational language. We generate abstractive summaries of narrated
instructional videos across a wide variety of topics, from gardening and
cooking to software configuration and sports. In order to enrich the
vocabulary, we use transfer learning and pretrain the model on a few large
cross-domain datasets in both written and spoken English. We also do
preprocessing of transcripts to restore sentence segmentation and punctuation
in the output of an ASR system. The results are evaluated with ROUGE and
Content-F1 scoring for the How2 and WikiHow datasets. We engage human judges to
score a set of summaries randomly selected from a dataset curated from
HowTo100M and YouTube. Based on blind evaluation, we achieve a level of textual
fluency and utility close to that of summaries written by human content
creators. The model beats current SOTA when applied to WikiHow articles that
vary widely in style and topic, while showing no performance regression on the
canonical CNN/DailyMail dataset. Due to the high generalizability of the model
across different styles and domains, it has great potential to improve
accessibility and discoverability of internet content. We envision this
integrated as a feature in intelligent virtual assistants, enabling them to
summarize both written and spoken instructional content upon request.
- Abstract(参考訳): 話し言葉の要約は、流れの自発性、不流動、その他の問題など、通常は文章に書かれていない問題のために難しい問題である。
本稿では,BERTSumモデルの最初の会話言語への応用について述べる。
我々は,園芸や料理,ソフトウェア構成,スポーツなど,さまざまなトピックを対象としたナレーション付き指導ビデオの抽象要約を生成する。
語彙を豊かにするために、トランスファーラーニングを使用し、テキストと音声の両方で、少数の大きなクロスドメインデータセット上でモデルを事前訓練する。
また、asrシステムの出力における文分割や句読点を復元するために、書き起こしの前処理も行う。
how2とwikihowデータセットのrougeとcontent-f1スコアで結果を評価する。
人間の審査員は、HowTo100MとYouTubeから収集されたデータセットからランダムに選択された一連のサマリーをスコアする。
視覚的評価に基づき、人間のコンテンツ制作者による要約に匹敵するテキストの流布度とユーティリティのレベルを達成する。
このモデルは、標準CNN/DailyMailデータセットでパフォーマンスのレグレッションを示さず、スタイルやトピックで広く異なるWikiHowの記事に適用した場合、現在のSOTAを上回っている。
異なるスタイルやドメインにまたがるモデルの一般化性が高いため、インターネットコンテンツのアクセシビリティや発見性を向上させる大きな可能性がある。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて書かれた内容と話し言葉の両方を要約できることを期待している。
関連論文リスト
- Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文 参考訳(メタデータ) (2024-08-27T02:43:40Z) - WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling
Vision-Language Models Through Open-Vocabulary Knowledge [12.034917651508524]
$texttWAVER$は、視覚言語モデルによるクロスドメイン知識蒸留フレームワークである。
$texttWAVER$は、事前訓練された視覚言語モデルにあるオープン語彙プロパティに注目する。
テキストビデオ検索タスクでは、書き込みスタイルのバリエーションを処理しながら、最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-12-15T03:17:37Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Towards End-to-end Speech-to-text Summarization [0.0]
音声からテキストへの要約(S2T)は、オンラインで毎日アップロードされたニュースをフィルタリングし、追従するための時間節約手法である。
S2T抽象要約のエンドツーエンド(E2E)モデリングは、リッチな潜在表現を生成する可能性を提供する有望なアプローチである。
我々は、フランス語放送ニュースのコーパスに対して、カスケードとE2Eシステムの両方でS2T要約をモデル化する。
論文 参考訳(メタデータ) (2023-06-06T15:22:16Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - Leveraging Natural Supervision for Language Representation Learning and
Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。
まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。
文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T17:26:03Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。