論文の概要: MICap: A Unified Model for Identity-aware Movie Descriptions
- arxiv url: http://arxiv.org/abs/2405.11483v1
- Date: Sun, 19 May 2024 08:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:18:28.165334
- Title: MICap: A Unified Model for Identity-aware Movie Descriptions
- Title(参考訳): MICap: アイデンティティを意識した映画記述のための統一モデル
- Authors: Haran Raajesh, Naveen Reddy Desanur, Zeeshan Khan, Makarand Tapaswi,
- Abstract要約: 空白字幕を付与した場合に,ID認識キャプション生成やFITBをシームレスに切り替えることのできる,新しい単一ステージアプローチを提案する。
私たちのモデルであるMICap(Movie-Identity Captioner)は、FITBとフルキャプション生成のトレーニングの恩恵を受ける、共有自動回帰デコーダを使用します。
- 参考スコア(独自算出の注目度): 16.287294191608893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Characters are an important aspect of any storyline and identifying and including them in descriptions is necessary for story understanding. While previous work has largely ignored identity and generated captions with someone (anonymized names), recent work formulates id-aware captioning as a fill-in-the-blanks (FITB) task, where, given a caption with blanks, the goal is to predict person id labels. However, to predict captions with ids, a two-stage approach is required: first predict captions with someone, then fill in identities. In this work, we present a new single stage approach that can seamlessly switch between id-aware caption generation or FITB when given a caption with blanks. Our model, Movie-Identity Captioner (MICap), uses a shared auto-regressive decoder that benefits from training with FITB and full-caption generation objectives, while the encoder can benefit from or disregard captions with blanks as input. Another challenge with id-aware captioning is the lack of a metric to capture subtle differences between person ids. To this end, we introduce iSPICE, a caption evaluation metric that focuses on identity tuples created through intermediate scene graphs. We evaluate MICap on Large-Scale Movie Description Challenge (LSMDC), where we show a 4.2% improvement in FITB accuracy, and a 1-2% bump in classic captioning metrics.
- Abstract(参考訳): キャラクタはあらゆるストーリーラインの重要な側面であり、ストーリー理解にはそれらを含むことが不可欠である。
以前の作業では、アイデンティティを無視し、誰か(匿名名)とキャプションを生成していたが、最近の作業では、フィリング・イン・ザ・ブランク(FITB)タスクとしてid-awareキャプションを定式化しており、空白のキャプションが与えられた場合、そのゴールは人物のIDラベルを予測することである。
しかし、キャプションをIDで予測するには、まず誰かとキャプションを予測し、次にIDを埋める2段階のアプローチが必要である。
本研究では,空白字幕を付与した場合に,ID認識キャプション生成やFITBをシームレスに切り替えることのできる,新しい単一ステージアプローチを提案する。
我々のモデルであるMICapは、FITBとフルキャプション生成目標のトレーニングの恩恵を受ける共有自動回帰デコーダを使用し、エンコーダは入力として空白の字幕の恩恵を受けるか無視することができる。
id対応キャプションのもう1つの課題は、個人ID間の微妙な違いを捉えるためのメートル法が欠如していることである。
そこで本研究では,中間シーングラフから生成したアイデンティティタプルに着目したキャプション評価指標iSPICEを紹介する。
MICap on Large-Scale Movie Description Challenge (LSMDC) では,FITBの精度が4.2%向上し,古典的なキャプションの指標が1-2%向上した。
関連論文リスト
- It's Just Another Day: Unique Video Captioning by Discriminative Prompting [70.99367779336256]
同じキャプションを持つ複数のクリップが与えられた場合、各クリップに対して、そのキャプションをユニークに識別する新しいキャプションを生成する。
CDPが生成したキャプションは、エゴセントリックなビデオでは15%改善し、タイムループ映画では10%改善した。
論文 参考訳(メタデータ) (2024-10-15T15:41:49Z) - Inserting Faces inside Captions: Image Captioning with Attention Guided Merging [0.0]
画像キャプションタスク用のデータセットであるAstroCaptionsを紹介する。
キャプション内に識別された人物の名前を挿入するための新しいポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:38:25Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-23T20:39:06Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。