論文の概要: Visual Transformation Telling
- arxiv url: http://arxiv.org/abs/2305.01928v1
- Date: Wed, 3 May 2023 07:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:53:02.649508
- Title: Visual Transformation Telling
- Title(参考訳): ビジュアルトランスフォーメーション
- Authors: Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng
- Abstract要約: ビジュアルトランスフォーメーション・テリング(VTT)と呼ばれる新しい視覚的推論タスクを提案する。
このタスクは、一連の2つの隣接する状態(すなわち画像)間で発生した変換を記述する機械を必要とする。
我々は、CrossTaskとCOINという2つの指導ビデオデータセットから13,547のサンプルを収集し、望ましい状態と変換記述を抽出した。
- 参考スコア(独自算出の注目度): 80.32402545546209
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a new visual reasoning task, called Visual
Transformation Telling (VTT). This task requires a machine to describe the
transformation that occurred between every two adjacent states (i.e. images) in
a series. Unlike most existing visual reasoning tasks that focus on state
reasoning, VTT emphasizes transformation reasoning. We collected 13,547 samples
from two instructional video datasets, CrossTask and COIN, and extracted
desired states and transformation descriptions to create a suitable VTT
benchmark dataset. Humans can naturally reason from superficial states
differences (e.g. ground wetness) to transformations descriptions (e.g.
raining) according to their life experience but how to model this process to
bridge this semantic gap is challenging. We designed TTNet on top of existing
visual storytelling models by enhancing the model's state-difference
sensitivity and transformation-context awareness. TTNet significantly
outperforms other baseline models adapted from similar tasks, such as visual
storytelling and dense video captioning, demonstrating the effectiveness of our
modeling on transformations. Through comprehensive diagnostic analyses, we
found TTNet has strong context utilization abilities, but even with some
state-of-the-art techniques such as CLIP, there remain challenges in
generalization that need to be further explored.
- Abstract(参考訳): 本稿では,ビジュアルトランスフォーメーション・テリング(VTT)と呼ばれる新しい視覚的推論タスクを提案する。
このタスクは、一連の2つの隣接する状態(すなわち画像)間で発生した変換を記述する機械を必要とする。
状態推論に重点を置く既存の視覚推論タスクとは異なり、VTTは変換推論を強調している。
我々は、CrossTaskとCOINという2つのインストラクショナルビデオデータセットから13,547のサンプルを収集し、望ましいVTTベンチマークデータセットを作成するために、望ましい状態と変換記述を抽出した。
人間は、表面的な状態の違い(例えば、地面の湿気)から、生活経験に基づく変化の記述(例えば、雨)まで、自然に推論できるが、この過程をモデル化して、このセマンティックギャップを橋渡しする方法は難しい。
我々は,既存のビジュアルストーリーテリングモデル上にTTNetを設計し,モデルの状態差感度と変換コンテキスト認識を強化した。
TTNetは、視覚的なストーリーテリングや高密度ビデオキャプションといった類似のタスクに適応した他のベースラインモデルよりも優れており、我々のモデリングが変換に与える影響を実証している。
包括的診断分析により,TTNetには強い文脈利用能力があることがわかったが,CLIPのような最先端技術でも,さらなる検討を要する一般化の課題が残っている。
関連論文リスト
- Cross-Modal Contextualized Diffusion Models for Text-Guided Visual
Generation and Editing [71.08616120359348]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Visual Reasoning: from State to Transformation [80.32402545546209]
既存の視覚的推論タスクは重要な要素、すなわち変換を無視している。
本稿では,新しいテキスト変換駆動型視覚推論(TVR)タスクを提案する。
現状のビジュアル推論モデルは,Basic上では良好に機能するが,イベント,ビュー,TRANCOにおける人間レベルのインテリジェンスには程遠いことを示す。
論文 参考訳(メタデータ) (2023-05-02T14:24:12Z) - Vision Transformer Based Model for Describing a Set of Images as a Story [26.717033245063092]
本稿では,画像の集合を物語として記述する新しいビジョントランスフォーマーベースモデルを提案する。
提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。
提案モデルの性能はVisual Story-Telling dataset (VIST)を用いて評価する。
論文 参考訳(メタデータ) (2022-10-06T09:01:50Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Transformation Driven Visual Reasoning [80.32402545546209]
本稿では,重要な要因,すなわちトランスフォーメーションを導入することで,新たな視覚的推論パラダイムを定義する。
この種のテキスト状態駆動型視覚推論アプローチは、マシンが異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界がある、と我々は主張する。
実験結果から,現在最先端の視覚推論モデルは,Basic上では良好に動作するが,イベントやビューにおける人間レベルのインテリジェンスには程遠いことが示唆された。
論文 参考訳(メタデータ) (2020-11-26T07:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。