論文の概要: Video2Commonsense: Generating Commonsense Descriptions to Enrich Video
Captioning
- arxiv url: http://arxiv.org/abs/2003.05162v3
- Date: Fri, 16 Oct 2020 02:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:29:42.999428
- Title: Video2Commonsense: Generating Commonsense Descriptions to Enrich Video
Captioning
- Title(参考訳): Video2Commonsense: ビデオキャプションを強化するためのCommonsense記述の生成
- Authors: Zhiyuan Fang, Tejas Gokhale, Pratyay Banerjee, Chitta Baral, Yezhou
Yang
- Abstract要約: 人間のような活動的なエージェントを含むビデオでは、エージェントのアクションはシーンに無数の変化をもたらす可能性がある。
画像とは異なり、ビデオ内のアクションは、意図(なぜアクションが起こっているのか)、効果(アクションによる変化)、エージェントを記述する属性など、本質的に社会的側面と結びついている。
本稿では,ビデオから直接コモンセンスキャプションを生成し,意図,効果,属性などの潜在的な側面を説明する。
- 参考スコア(独自算出の注目度): 56.97139024595429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Captioning is a crucial and challenging task for video understanding. In
videos that involve active agents such as humans, the agent's actions can bring
about myriad changes in the scene. Observable changes such as movements,
manipulations, and transformations of the objects in the scene, are reflected
in conventional video captioning. Unlike images, actions in videos are also
inherently linked to social aspects such as intentions (why the action is
taking place), effects (what changes due to the action), and attributes that
describe the agent. Thus for video understanding, such as when captioning
videos or when answering questions about videos, one must have an understanding
of these commonsense aspects. We present the first work on generating
commonsense captions directly from videos, to describe latent aspects such as
intentions, effects, and attributes. We present a new dataset
"Video-to-Commonsense (V2C)" that contains $\sim9k$ videos of human agents
performing various actions, annotated with 3 types of commonsense descriptions.
Additionally we explore the use of open-ended video-based commonsense question
answering (V2C-QA) as a way to enrich our captions. Both the generation task
and the QA task can be used to enrich video captions.
- Abstract(参考訳): キャプションはビデオ理解にとって重要かつ困難な課題である。
人間のような活動的なエージェントを含むビデオでは、エージェントのアクションはシーンに無数の変化をもたらす可能性がある。
従来のビデオキャプションでは、シーン内の物体の動き、操作、変換などの観測可能な変化が反映されている。
画像とは異なり、ビデオ内のアクションは、意図(なぜアクションが起こっているのか)、効果(アクションによる変化)、エージェントを記述する属性など、本質的に社会的側面と結びついている。
したがって、キャプション動画やビデオに関する質問に答える場合のようなビデオ理解には、これらの常識的な側面を理解する必要がある。
本稿では,ビデオから直接コモンセンスキャプションを生成し,意図,効果,属性などの潜在的な側面を説明する。
本稿では、3種類のコモンセンス記述をアノテートした、さまざまなアクションを行う人間のエージェントの$\sim9k$ビデオを含む新しいデータセット「video-to-commonsense (v2c)」を提案する。
また,字幕を充実させる手段として,V2C-QA (V2C-QA) を用いた。
生成タスクとQAタスクの両方をビデオキャプションの強化に使用することができる。
関連論文リスト
- Storyboard guided Alignment for Fine-grained Video Action Recognition [32.02631248389487]
微細なビデオアクション認識は、ビデオテキストマッチング問題として概念化することができる。
i) 異なるグローバルなセマンティクスを持つビデオは、類似したアトミックなアクションや外観を共有し、(ii) ビデオ内のアトミックなアクションは、瞬間的、遅い、あるいは、グローバルなビデオセマンティクスと直接的に関係しない、という2つの観察に基づく多粒度フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:40:41Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols [53.706461356853445]
アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
論文 参考訳(メタデータ) (2023-11-05T01:45:31Z) - FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z) - Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文 参考訳(メタデータ) (2023-03-14T00:19:11Z) - Saying the Unseen: Video Descriptions via Dialog Agents [37.16726118481626]
本稿では,2つのエージェント間の自然言語対話を用いたビデオ記述を目的とした新しいタスクを提案する。
Q-BOTは、ビデオの開始と終了から2つのセマンティックセグメンテーションフレームが与えられる。
ビデオ全体にアクセスする他のエージェントであるA-BOTは、Q-BOTが質問に答えることによってゴールを達成するのを支援する。
論文 参考訳(メタデータ) (2021-06-26T17:36:31Z) - iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video
Captioning and Video Question Answering [0.0]
ビデオ内のイベント間の"なぜ"を理解することができるフレームワークであるiPerを提案する。
機械翻訳問題としてのiPerceiveとVideoQAの有効性を示す。
我々のアプローチは、視覚的理解の最先端をさらに進める。
論文 参考訳(メタデータ) (2020-11-16T05:44:45Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。