Fugu-MT 論文翻訳(概要): Hierarchical3D Adapters for Long Video-to-text Summarization

論文の概要: Hierarchical3D Adapters for Long Video-to-text Summarization

arxiv url: http://arxiv.org/abs/2210.04829v1
Date: Mon, 10 Oct 2022 16:44:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 17:03:39.433479
Title: Hierarchical3D Adapters for Long Video-to-text Summarization
Title（参考訳）: 長文要約のための階層3dアダプタ
Authors: Pinelopi Papalampidi, Mirella Lapata
Abstract要約: マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
参考スコア（独自算出の注目度）: 79.01926022762093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we focus on video-to-text summarization and investigate how to best utilize multimodal information for summarizing long inputs (e.g., an hour-long TV show) into long outputs (e.g., a multi-sentence summary). We extend SummScreen (Chen et al., 2021), a dialogue summarization dataset consisting of transcripts of TV episodes with reference summaries, and create a multimodal variant by collecting corresponding full-length videos. We incorporate multimodal information into a pre-trained textual summarizer efficiently using adapter modules augmented with a hierarchical structure while tuning only 3.8\% of model parameters. Our experiments demonstrate that multimodal information offers superior performance over more memory-heavy and fully fine-tuned textual summarization methods.
Abstract（参考訳）: 本稿では,ビデオとテキストの要約に着目し,長い入力(例えば1時間長のテレビ番組)を長い出力(例えば、マルチ文要約)にまとめる上で,マルチモーダル情報を最大限に活用する方法を検討する。我々は,テレビエピソードと参照要約の書き起こしからなる対話要約データセットであるsummscreen (chen et al., 2021)を拡張し,対応する全編映像を収集し,マルチモーダルな変種を作成する。階層構造を付加したアダプタモジュールをモデルパラメータの3.8 %に調整しながら,マルチモーダル情報を事前学習したテキスト要約器に効率的に組み込む。本実験では,マルチモーダル情報は,メモリ重みと完全調整されたテキスト要約法よりも優れた性能を提供することを示す。

関連論文リスト

Integrating Video and Text: A Balanced Approach to Multimodal Summary Generation and Evaluation [35.50845951376099]
本稿では,ゼロショット映像からテキストまでの要約手法を提案する。従来の手法とは異なり、我々は文字をゼロショットで生成し、音声、ビデオ、テキストのみを入力として使用する。
論文参考訳（メタデータ） (2025-05-10T10:52:23Z)
SD-VSum: A Method and Dataset for Script-Driven Video Summarization [6.076406622352117]
スクリプト駆動のビデオ要約(VideoXum)の課題を紹介する。我々は、ビデオ毎に利用できる異なる人間注釈の要約を自然言語で記述する。我々はスクリプト駆動のビデオ要約(SD-VSum)のための新しいネットワークアーキテクチャを開発した。
論文参考訳（メタデータ） (2025-05-06T08:47:14Z)
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文参考訳（メタデータ） (2024-08-03T05:35:13Z)
V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。既存のデータセットのほとんどは、ビデオ間要約用に作成されている。マルチモーダル映像要約への取り組みが近年行われている。
論文参考訳（メタデータ） (2024-04-18T17:32:46Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。 A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文参考訳（メタデータ） (2023-03-13T17:01:42Z)
TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。 XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文参考訳（メタデータ） (2022-10-16T08:19:59Z)
Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。 LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-10-16T06:19:54Z)
See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文参考訳（メタデータ） (2021-05-20T08:56:33Z)
Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文参考訳（メタデータ） (2020-04-05T14:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。