Fugu-MT 論文翻訳(概要): What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations

論文の概要: What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations

arxiv url: http://arxiv.org/abs/2502.08279v1
Date: Wed, 12 Feb 2025 10:36:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.944648
Title: What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations
Title（参考訳）: 何の話か? 科学プレゼンテーションのためのビデオからテキストへの要約データセット
Authors: Dongqi Liu, Chenxi Whitehouse, Xi Yu, Louis Mahon, Rohit Saxena, Zheng Zhao, Yifu Qiu, Mirella Lapata, Vera Demberg,
Abstract要約: 本稿では,科学領域におけるビデオとテキストの要約に特化したデータセットであるVISTAを紹介する。我々は、最先端の大規模モデルの性能をベンチマークし、抽象概念の構造的性質をよりよく捉えるためにプランベースのフレームワークを適用した。
参考スコア（独自算出の注目度）: 47.79536652721794
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Transforming recorded videos into concise and accurate textual summaries is a growing challenge in multimodal learning. This paper introduces VISTA, a dataset specifically designed for video-to-text summarization in scientific domains. VISTA contains 18,599 recorded AI conference presentations paired with their corresponding paper abstracts. We benchmark the performance of state-of-the-art large models and apply a plan-based framework to better capture the structured nature of abstracts. Both human and automated evaluations confirm that explicit planning enhances summary quality and factual consistency. However, a considerable gap remains between models and human performance, highlighting the challenges of scientific video summarization.
Abstract（参考訳）: 録音されたビデオを簡潔で正確なテキスト要約に変換することは、マルチモーダル学習における課題である。本稿では,科学領域におけるビデオとテキストの要約に特化したデータセットであるVISTAを紹介する。 VISTAには、対応する論文の要約と組み合わせた18,599のAIカンファレンスプレゼンテーションが含まれている。我々は、最先端の大規模モデルの性能をベンチマークし、抽象概念の構造的性質をよりよく捉えるためにプランベースのフレームワークを適用した。人的評価と自動評価の両方で、明示的な計画が要約品質と事実整合性を高めることが確認されている。しかしながら、モデルと人間のパフォーマンスの間には大きなギャップが残っており、科学的ビデオ要約の課題が浮き彫りになっている。

関連論文リスト

ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents [0.0]
著者はEnsaniのWebサイトから入手した30万のフルテキストペルシア語の論文のデータセットを紹介している。彼らは、要約を生成するために、Longformerアーキテクチャに基づいたARMANモデルを適用します。結果はペルシャ語のテキスト要約における有望なパフォーマンスを示す。
論文参考訳（メタデータ） (2025-03-13T10:16:46Z)
Abstractive Text Summarization: State of the Art, Challenges, and Improvements [6.349503549199403]
このレビューでは、最先端のメソッド、課題、ソリューション、比較、制限、将来の改善をチャートアップする包括的なアプローチを取り上げる。本論文は,不適切な意味表現,事実整合性,制御可能なテキスト要約,言語間要約,評価指標などの課題を強調する。
論文参考訳（メタデータ） (2024-09-04T03:39:23Z)
Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文参考訳（メタデータ） (2024-08-27T02:43:40Z)
Enhancing Video Summarization with Context Awareness [9.861215740353247]
ビデオ要約は、ビデオの本質をキャプチャするテクニック、ショット、セグメントを選択することで、簡潔な要約を自動的に生成する。ビデオ要約の重要性にもかかわらず、多様で代表的なデータセットが不足している。本稿では,映像データ構造と情報を活用して情報要約を生成する教師なし手法を提案する。
論文参考訳（メタデータ） (2024-04-06T09:08:34Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文参考訳（メタデータ） (2023-11-20T20:24:45Z)
Enhancing Argument Structure Extraction with Efficient Leverage of Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2023-10-08T08:47:10Z)
Learning Summary-Worthy Visual Representation for Abstractive Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文参考訳（メタデータ） (2023-05-08T16:24:46Z)
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions [99.37090317971312]
ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
論文参考訳（メタデータ） (2022-01-17T04:23:08Z)
ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文参考訳（メタデータ） (2021-06-01T22:17:13Z)
How Good is a Video Summary? A New Benchmarking Dataset and Evaluation Framework Towards Realistic Video Summarization [11.320914099324492]
6つのカテゴリにまたがる長いビデオで構成されるVISIOCITYと呼ばれる新しいベンチマークビデオデータセットを紹介します。 VISIOCITYに存在する間接的地上真実から複数の参照要約を自動的に生成する戦略を示す。人間の判断に近い要約品質を定量的に評価するための評価枠組みを提案する。
論文参考訳（メタデータ） (2021-01-26T01:42:55Z)
Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文参考訳（メタデータ） (2020-12-14T18:41:58Z)
Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文参考訳（メタデータ） (2020-08-21T20:59:34Z)
Realistic Video Summarization through VISIOCITY: A New Benchmark and Evaluation Framework [15.656965429236235]
いくつかの課題に対処することで,ビデオの自動要約をより現実的にするための一歩を踏み出した。まず、現在利用可能なデータセットは、非常に短いビデオを持っているか、特定のタイプのビデオしか持たない。 6つのカテゴリにまたがる長いビデオからなる新しいベンチマークデータセットVISIOCITYを導入する。
論文参考訳（メタデータ） (2020-07-29T02:44:35Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。