論文の概要: Sample Efficient Multimodal Semantic Augmentation for Incremental
Summarization
- arxiv url: http://arxiv.org/abs/2303.04361v1
- Date: Wed, 8 Mar 2023 03:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:09:32.865157
- Title: Sample Efficient Multimodal Semantic Augmentation for Incremental
Summarization
- Title(参考訳): インクリメンタル要約のためのサンプル効率の多モードセマンティック拡張
- Authors: Sumanta Bhattacharyya, Ramesh Manuvinakurike, Sahisnu Mazumder, Saurav
Sahay
- Abstract要約: タスクビデオの漸進的な要約のためのプロンプト手法を開発した。
既存のモデルを用いて画像から意味概念を抽出する。
関連データセットに結果を示し、作業の可能な方向性について議論する。
- 参考スコア(独自算出の注目度): 13.529904498331673
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we develop a prompting approach for incremental summarization
of task videos. We develop a sample-efficient few-shot approach for extracting
semantic concepts as an intermediate step. We leverage an existing model for
extracting the concepts from the images and extend it to videos and introduce a
clustering and querying approach for sample efficiency, motivated by the recent
advances in perceiver-based architectures. Our work provides further evidence
that an approach with richer input context with relevant entities and actions
from the videos and using these as prompts could enhance the summaries
generated by the model. We show the results on a relevant dataset and discuss
possible directions for the work.
- Abstract(参考訳): 本研究では,タスクビデオの漸進的な要約のためのプロンプト手法を開発する。
中間ステップとして意味概念を抽出するためのサンプル効率のよい少数ショットアプローチを開発した。
画像から概念を抽出し,それをビデオに拡張する既存のモデルを活用し,近年の知覚アーキテクチャの進歩に動機づけられた,サンプル効率のためのクラスタリングとクエリ手法を導入する。
我々の研究は、より豊かな入力コンテキストを持つアプローチが、関連エンティティやアクションをビデオから提供し、それらをプロンプトとして使用することで、モデルが生成した要約を向上できるというさらなる証拠を提供する。
関連するデータセットに結果を示し,作業の方向性について検討する。
関連論文リスト
- Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文 参考訳(メタデータ) (2023-05-08T16:24:46Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization [63.320005222549646]
マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-12-15T09:05:26Z) - AARGH! End-to-end Retrieval-Generation for Task-Oriented Dialog [3.42658286826597]
AARGHは、単一モデルにおける検索と生成のアプローチを組み合わせたエンドツーエンドのタスク指向対話システムである。
提案手法は,状態追跡とコンテキスト・ツー・レスポンス生成性能を維持・改善しながら,より多様な出力を生成する。
論文 参考訳(メタデータ) (2022-09-08T08:15:22Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge
Distillation and Cross-modal Matching [32.58463449158339]
本稿では,ペアワイズなイベントセンテンスアノテーションを使わずに動画キャプション(dvc)を行う手法を提案する。
適切かつよく解決されたタスクから抽出された知識を採用し、高品質のイベント提案を生成します。
コントラスト損失とサイクル一貫性損失を組み込んで、提案と文のセマンティックマッチングを構築します。
論文 参考訳(メタデータ) (2021-05-18T03:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。