論文の概要: IntentVizor: Towards Generic Query Guided Interactive Video
Summarization Using Slow-Fast Graph Convolutional Networks
- arxiv url: http://arxiv.org/abs/2109.14834v1
- Date: Thu, 30 Sep 2021 03:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:52:31.701636
- Title: IntentVizor: Towards Generic Query Guided Interactive Video
Summarization Using Slow-Fast Graph Convolutional Networks
- Title(参考訳): IntentVizor: Slow-Fast Graph Convolutional Networksを用いたジェネリッククエリガイドによるインタラクティブビデオ要約
- Authors: Guande Wu and Jianzhe Lin and Claudio T. Silva
- Abstract要約: IntentVizorは、ジェネリックなマルチモーダリティクエリによってガイドされるインタラクティブなビデオ要約フレームワークである。
ユーザからのインプットを表現するために一連のインテントを使用して、インタラクティブなビジュアル分析インターフェースを設計しています。
- 参考スコア(独自算出の注目度): 2.5234156040689233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The target of automatic Video summarization is to create a short skim of the
original long video while preserving the major content/events. There is a
growing interest in the integration of user's queries into video summarization,
or query-driven video summarization. This video summarization method predicts a
concise synopsis of the original video based on the user query, which is
commonly represented by the input text. However, two inherent problems exist in
this query-driven way. First, the query text might not be enough to describe
the exact and diverse needs of the user. Second, the user cannot edit once the
summaries are produced, limiting this summarization technique's practical
value. We assume the needs of the user should be subtle and need to be adjusted
interactively. To solve these two problems, we propose a novel IntentVizor
framework, which is an interactive video summarization framework guided by
genric multi-modality queries. The input query that describes the user's needs
is not limited to text but also the video snippets. We further conclude these
multi-modality finer-grained queries as user `intent', which is a newly
proposed concept in this paper. This intent is interpretable, interactable, and
better quantifies/describes the user's needs. To be more specific, We use a set
of intents to represent the inputs of users to design our new interactive
visual analytic interface. Users can interactively control and adjust these
mixed-initiative intents to obtain a more satisfying summary of this newly
proposed interface. Also, as algorithms help users achieve their summarization
goal via video understanding, we propose two novel intent/scoring networks
based on the slow-fast feature for our algorithm part. We conduct our
experiments on two benchmark datasets. The comparison with the state-of-the-art
methods verifies the effectiveness of the proposed framework.
- Abstract(参考訳): 自動要約の目標は、主要なコンテンツ/イベントを保存しながら、元の長ビデオの短いスキムを作成することである。
ユーザのクエリをビデオ要約やクエリ駆動のビデオ要約に統合することへの関心が高まっている。
このビデオ要約方法は、入力テキストで一般的に表現されるユーザクエリに基づいて、元のビデオの簡潔な合成を予測する。
しかし、このクエリ駆動方式には2つの固有の問題がある。
まず、クエリテキストは、ユーザの正確で多様なニーズを記述するのに十分ではないかもしれない。
第2に,要約が生成された時点では編集できないため,この要約手法の実用的価値が制限される。
ユーザのニーズは微妙で、対話的に調整する必要があると仮定します。
この2つの問題を解決するために,genric multi-modality queryによるインタラクティブビデオ要約フレームワークであるintentvizorフレームワークを提案する。
ユーザのニーズを記述した入力クエリは、テキストだけでなく、ビデオスニペットにも制限される。
さらに,本論文で新たに提案する概念であるユーザ ‘intent’ として,マルチモダリティのきめ細かなクエリを結論づける。
このインテントは解釈可能で、対話可能で、ユーザの要求を定量化/記述しやすくします。
より具体的に言うと、ユーザの入力を表現するために一連のインテントを使用して、インタラクティブなビジュアル分析インターフェースを設計します。
ユーザは、これらの混合開始意図をインタラクティブに制御し、調整することで、この新しく提案されたインターフェースのより満足な要約を得ることができる。
また,ビデオ理解による要約目標を達成するためのアルゴリズムとして,提案手法を用いた2つの新しいインテント/スコーリングネットワークを提案する。
我々は2つのベンチマークデータセットで実験を行う。
提案手法との比較により,提案手法の有効性が検証された。
関連論文リスト
- Your Interest, Your Summaries: Query-Focused Long Video Summarization [0.6041235048439966]
本稿では,ユーザクエリとビデオ要約を密接に関連付けることを目的とした,クエリ中心のビデオ要約に対するアプローチを提案する。
本稿では,本課題のために設計された新しいアプローチであるFCSNA-QFVS(FCSNA-QFVS)を提案する。
論文 参考訳(メタデータ) (2024-10-17T23:37:58Z) - Query-based Video Summarization with Pseudo Label Supervision [19.229722872058055]
手動でラベル付けされたクエリベースのビデオ要約のための既存のデータセットは、コストが高くて小さい。
セルフスーパービジョンは、プリテキストタスクを使用して、擬似ラベルで余分なデータを取得する方法を定義することで、データ空間の問題に対処することができる。
実験結果から,提案した映像要約アルゴリズムは最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-04T22:28:17Z) - Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。
人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文 参考訳(メタデータ) (2023-05-15T07:12:19Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。