論文の概要: Identity-Aware Multi-Sentence Video Description
- arxiv url: http://arxiv.org/abs/2008.09791v1
- Date: Sat, 22 Aug 2020 09:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 08:03:55.337783
- Title: Identity-Aware Multi-Sentence Video Description
- Title(参考訳): アイデンティティ対応多文ビデオ記述
- Authors: Jae Sung Park, Trevor Darrell, Anna Rohrbach
- Abstract要約: 本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 105.13845996039277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard video and movie description tasks abstract away from person
identities, thus failing to link identities across sentences. We propose a
multi-sentence Identity-Aware Video Description task, which overcomes this
limitation and requires to re-identify persons locally within a set of
consecutive clips. We introduce an auxiliary task of Fill-in the Identity, that
aims to predict persons' IDs consistently within a set of clips, when the video
descriptions are given. Our proposed approach to this task leverages a
Transformer architecture allowing for coherent joint prediction of multiple
IDs. One of the key components is a gender-aware textual representation as well
an additional gender prediction objective in the main model. This auxiliary
task allows us to propose a two-stage approach to Identity-Aware Video
Description. We first generate multi-sentence video descriptions, and then
apply our Fill-in the Identity model to establish links between the predicted
person entities. To be able to tackle both tasks, we augment the Large Scale
Movie Description Challenge (LSMDC) benchmark with new annotations suited for
our problem statement. Experiments show that our proposed Fill-in the Identity
model is superior to several baselines and recent works, and allows us to
generate descriptions with locally re-identified people.
- Abstract(参考訳): 標準的なビデオや映画の記述タスクは、人物のアイデンティティから切り離され、それによって文間でアイデンティティをリンクできない。
本稿では、この制限を克服し、連続するクリップのセット内で人物を再識別する必要があるマルチ文ID対応ビデオ記述タスクを提案する。
ビデオ記述が与えられたとき,一括して人の身元を一括して予測することを目的とした,身元確認の補助的タスクを導入する。
提案手法はTransformerアーキテクチャを利用して,複数IDのコヒーレントな共同予測を可能にする。
主要な構成要素の1つは、性別対応のテキスト表現と、主モデルにおける追加の性別予測目標である。
この補助タスクにより、アイデンティティ認識ビデオ記述に対する2段階のアプローチを提案することができる。
まず、マルチセンテンスビデオ記述を生成し、次に、予測された人物エンティティ間のリンクを確立するためにidモデルを適用します。
両課題に対処するために,我々はLSMDC(Large Scale Movie Description Challenge)ベンチマークを,問題文に適した新しいアノテーションで強化した。
実験の結果,提案したFill-in the Identity Modelは,いくつかのベースラインや最近の作業よりも優れており,局所的に再同定された人々による記述を生成できることがわかった。
関連論文リスト
- MICap: A Unified Model for Identity-aware Movie Descriptions [16.287294191608893]
空白字幕を付与した場合に,ID認識キャプション生成やFITBをシームレスに切り替えることのできる,新しい単一ステージアプローチを提案する。
私たちのモデルであるMICap(Movie-Identity Captioner)は、FITBとフルキャプション生成のトレーニングの恩恵を受ける、共有自動回帰デコーダを使用します。
論文 参考訳(メタデータ) (2024-05-19T08:54:12Z) - Contextual AD Narration with Interleaved Multimodal Sequence [50.240534605090396]
このタスクは、視覚障害者が映画のような長めのビデオコンテンツにアクセスするのを助けるために、視覚障害者のための視覚要素の記述を作成することを目的としている。
ビデオ機能、テキスト、文字バンク、コンテキスト情報を入力として、生成されたADは名前で文字に対応することができる。
我々は、ADを生成するためのシンプルで統一されたフレームワークを通じて、事前訓練された基礎モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:27:55Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - MINTIME: Multi-Identity Size-Invariant Video Deepfake Detection [17.74528571088335]
我々はMINTIMEというビデオディープフェイク検出手法を導入し、空間的および時間的異常を捉え、同じビデオ内の複数の人のインスタンスと顔サイズの変化を処理します。
複数の人を含むビデオにおいて、最大14%のAUCを改善して、ForgeryNetデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-11-20T15:17:24Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z) - Deep Multimodal Feature Encoding for Video Ordering [34.27175264084648]
これらすべてのモダリティを符号化するコンパクトなマルチモーダル特徴表現を学習する方法を提案する。
我々のモデルパラメータは、時系列内の順序のない一連のビデオの時間的順序を推測するプロキシタスクによって学習される。
課題3つの課題,すなわち,ビデオの時間的順序を推定すること,および(ii)行動認識について,個人と共同のモダリティを分析し,評価する。
論文 参考訳(メタデータ) (2020-04-05T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。