論文の概要: Visual Transformation Telling
- arxiv url: http://arxiv.org/abs/2305.01928v1
- Date: Wed, 3 May 2023 07:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:53:02.649508
- Title: Visual Transformation Telling
- Title(参考訳): ビジュアルトランスフォーメーション
- Authors: Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng
- Abstract要約: ビジュアルトランスフォーメーション・テリング(VTT)と呼ばれる新しい視覚的推論タスクを提案する。
このタスクは、一連の2つの隣接する状態(すなわち画像)間で発生した変換を記述する機械を必要とする。
我々は、CrossTaskとCOINという2つの指導ビデオデータセットから13,547のサンプルを収集し、望ましい状態と変換記述を抽出した。
- 参考スコア(独自算出の注目度): 80.32402545546209
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a new visual reasoning task, called Visual
Transformation Telling (VTT). This task requires a machine to describe the
transformation that occurred between every two adjacent states (i.e. images) in
a series. Unlike most existing visual reasoning tasks that focus on state
reasoning, VTT emphasizes transformation reasoning. We collected 13,547 samples
from two instructional video datasets, CrossTask and COIN, and extracted
desired states and transformation descriptions to create a suitable VTT
benchmark dataset. Humans can naturally reason from superficial states
differences (e.g. ground wetness) to transformations descriptions (e.g.
raining) according to their life experience but how to model this process to
bridge this semantic gap is challenging. We designed TTNet on top of existing
visual storytelling models by enhancing the model's state-difference
sensitivity and transformation-context awareness. TTNet significantly
outperforms other baseline models adapted from similar tasks, such as visual
storytelling and dense video captioning, demonstrating the effectiveness of our
modeling on transformations. Through comprehensive diagnostic analyses, we
found TTNet has strong context utilization abilities, but even with some
state-of-the-art techniques such as CLIP, there remain challenges in
generalization that need to be further explored.
- Abstract(参考訳): 本稿では,ビジュアルトランスフォーメーション・テリング(VTT)と呼ばれる新しい視覚的推論タスクを提案する。
このタスクは、一連の2つの隣接する状態(すなわち画像)間で発生した変換を記述する機械を必要とする。
状態推論に重点を置く既存の視覚推論タスクとは異なり、VTTは変換推論を強調している。
我々は、CrossTaskとCOINという2つのインストラクショナルビデオデータセットから13,547のサンプルを収集し、望ましいVTTベンチマークデータセットを作成するために、望ましい状態と変換記述を抽出した。
人間は、表面的な状態の違い(例えば、地面の湿気)から、生活経験に基づく変化の記述(例えば、雨)まで、自然に推論できるが、この過程をモデル化して、このセマンティックギャップを橋渡しする方法は難しい。
我々は,既存のビジュアルストーリーテリングモデル上にTTNetを設計し,モデルの状態差感度と変換コンテキスト認識を強化した。
TTNetは、視覚的なストーリーテリングや高密度ビデオキャプションといった類似のタスクに適応した他のベースラインモデルよりも優れており、我々のモデリングが変換に与える影響を実証している。
包括的診断分析により,TTNetには強い文脈利用能力があることがわかったが,CLIPのような最先端技術でも,さらなる検討を要する一般化の課題が残っている。
関連論文リスト
- Supervised Fine-tuning in turn Improves Visual Foundation Models [74.1760864718129]
2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。
4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
論文 参考訳(メタデータ) (2024-01-18T18:58:54Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Visual Reasoning: from State to Transformation [80.32402545546209]
既存の視覚的推論タスクは重要な要素、すなわち変換を無視している。
本稿では,新しいテキスト変換駆動型視覚推論(TVR)タスクを提案する。
現状のビジュアル推論モデルは,Basic上では良好に機能するが,イベント,ビュー,TRANCOにおける人間レベルのインテリジェンスには程遠いことを示す。
論文 参考訳(メタデータ) (2023-05-02T14:24:12Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video
Paragraph Captioning [19.73126931526359]
ビデオパラグラフキャプションは、コヒーレントなストーリーテリングにおいて、複数の時間的イベント位置を持つ、トリミングされていないビデオのマルチ文記述を作成することを目的としている。
まず,視覚言語(VL)機能を提案する。提案するVL機能では,このシーンは (i) グローバルな視覚環境, (ii) ローカルな視覚メインエージェント, (iii) 言語シーン要素を含む3つのモードでモデル化される。
次に自動回帰変換器(TinT)を導入し、ビデオ内のイントラコンテンツとイントラコンテンツ間のセマンティックコヒーレンスを同時にキャプチャする。
論文 参考訳(メタデータ) (2022-11-28T07:39:20Z) - Visuo-Tactile Transformers for Manipulation [4.60687205898687]
本稿では,モデルに基づく強化学習と計画に適した,新しいマルチモーダル表現学習手法であるVisuo-Tactile Transformers(VTT)を提案する。
具体的には、VTTは触覚フィードバックと自己および横断的な注意を用いて、視覚領域における重要なタスク機能に注意を集中する潜時ヒートマップ表現を構築する。
論文 参考訳(メタデータ) (2022-09-30T22:38:29Z) - Fine-tuning Vision Transformers for the Prediction of State Variables in
Ising Models [2.9005223064604078]
Transformerは、スタックされた注意とポイントワイドで完全に接続されたレイヤで構成される最先端のディープラーニングモデルである。
本研究では、2次元イジングモデルシミュレーションの状態変数を予測するために視覚変換器(ViT)を適用した。
論文 参考訳(メタデータ) (2021-09-28T00:23:31Z) - Transformation Driven Visual Reasoning [80.32402545546209]
本稿では,重要な要因,すなわちトランスフォーメーションを導入することで,新たな視覚的推論パラダイムを定義する。
この種のテキスト状態駆動型視覚推論アプローチは、マシンが異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界がある、と我々は主張する。
実験結果から,現在最先端の視覚推論モデルは,Basic上では良好に動作するが,イベントやビューにおける人間レベルのインテリジェンスには程遠いことが示唆された。
論文 参考訳(メタデータ) (2020-11-26T07:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。