論文の概要: Imagine How To Change: Explicit Procedure Modeling for Change Captioning
- arxiv url: http://arxiv.org/abs/2603.05969v1
- Date: Fri, 06 Mar 2026 07:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.277381
- Title: Imagine How To Change: Explicit Procedure Modeling for Change Captioning
- Title(参考訳): 変更方法: 変更キャプションのための明示的なプロシージャモデリング
- Authors: Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen,
- Abstract要約: 既存の方法は静的なイメージペアで動作し、変更手順の豊富な時間的ダイナミクスを無視している。
本稿では,静的画像比較から動的プロシージャモデリングへの変更モデリングを再構成する新しいフレームワークProCapを紹介する。
- 参考スコア(独自算出の注目度): 18.938737195128347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Change captioning generates descriptions that explicitly describe the differences between two visually similar images. Existing methods operate on static image pairs, thus ignoring the rich temporal dynamics of the change procedure, which is the key to understand not only what has changed but also how it occurs. We introduce ProCap, a novel framework that reformulates change modeling from static image comparison to dynamic procedure modeling. ProCap features a two-stage design: The first stage trains a procedure encoder to learn the change procedure from a sparse set of keyframes. These keyframes are obtained by automatically generating intermediate frames to make the implicit procedural dynamics explicit and then sampling them to mitigate redundancy. Then the encoder learns to capture the latent dynamics of these keyframes via a caption-conditioned, masked reconstruction task. The second stage integrates this trained encoder within an encoder-decoder model for captioning. Instead of relying on explicit frames from the previous stage -- a process incurring computational overhead and sensitivity to visual noise -- we introduce learnable procedure queries to prompt the encoder for inferring the latent procedure representation, which the decoder then translates into text. The entire model is then trained end-to-end with a captioning loss, ensuring the encoder's output is both temporally coherent and captioning-aligned. Experiments on three datasets demonstrate the effectiveness of ProCap. Code and pre-trained models are available at https://github.com/BlueberryOreo/ProCap
- Abstract(参考訳): 変更キャプションは、2つの視覚的に類似した画像の違いを明確に記述する記述を生成する。
既存のメソッドは静的なイメージペアで動作するため、変更手順の豊富な時間的ダイナミクスは無視される。
本稿では,静的画像比較から動的プロシージャモデリングへの変更モデリングを再構成する新しいフレームワークProCapを紹介する。
ProCapは2段階の設計を特徴としている。 1段目は、キーフレームのスパースセットから変更手順を学ぶためのプロシージャエンコーダを訓練する。
これらのキーフレームは、自動的に中間フレームを生成して、暗黙の手続き的ダイナミクスを明確にし、それらをサンプリングして冗長性を緩和する。
そして、エンコーダは、キャプション条件付きマスク付き再構成タスクを介して、これらのキーフレームの潜伏するダイナミクスをキャプチャすることを学ぶ。
第2段階では、このトレーニングされたエンコーダを、キャプション用のエンコーダ-デコーダモデルに統合する。
前のステージからの明示的なフレーム(計算オーバーヘッドと視覚ノイズに対する感度をもたらすプロセス)に頼るのではなく、学習可能なプロシージャクエリを導入して、遅延プロシージャ表現を推論するエンコーダを導入し、デコーダをテキストに変換する。
モデル全体がキャプション損失でエンドツーエンドにトレーニングされ、エンコーダの出力が時間的に一貫性とキャプション整合性の両方を保証します。
3つのデータセットの実験では、ProCapの有効性が示されている。
コードと事前トレーニングされたモデルはhttps://github.com/BlueberryOreo/ProCapで入手できる。
関連論文リスト
- Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - CAMSIC: Content-aware Masked Image Modeling Transformer for Stereo Image Compression [15.819672238043786]
本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。
CAMSICは各画像を潜在表現に変換し、強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。
実験により、我々のフレームワークは、最先端の速度歪み性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-13T13:12:57Z) - Concatenated Masked Autoencoders as Spatial-Temporal Learner [6.475592804311682]
自己教師型ビデオ表現学習のための時空間学習システムとして,Concatenated Masked Autoencoders (CatMAE)を導入した。
そこで本研究では,ビデオフレームをモデル再構成ターゲットとして用いた新しいデータ拡張戦略であるVideo-Reverse(ViRe)を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:08:26Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。