論文の概要: Visual Transformation Telling
- arxiv url: http://arxiv.org/abs/2305.01928v2
- Date: Tue, 11 Jun 2024 08:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 01:28:06.691607
- Title: Visual Transformation Telling
- Title(参考訳): ビジュアル・トランスフォーメーション・テリング
- Authors: Wanqing Cui, Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: 我々はtextbfVisual textbfTransformation textbfTelling (VTT) と呼ばれる新しい視覚的推論タスクを提案する。
一連の状態(すなわち画像)が与えられた場合、VTTは隣接する2つの状態間の変換を記述する必要がある。
既存の2つの指導ビデオデータセットからの変換推論研究を支援するために,新しいデータセットを収集する。
- 参考スコア(独自算出の注目度): 81.99825888461544
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans can naturally reason from superficial state differences (e.g. ground wetness) to transformations descriptions (e.g. raining) according to their life experience. In this paper, we propose a new visual reasoning task to test this transformation reasoning ability in real-world scenarios, called \textbf{V}isual \textbf{T}ransformation \textbf{T}elling (VTT). Given a series of states (i.e. images), VTT requires to describe the transformation occurring between every two adjacent states. Different from existing visual reasoning tasks that focus on surface state reasoning, the advantage of VTT is that it captures the underlying causes, e.g. actions or events, behind the differences among states. We collect a novel dataset to support the study of transformation reasoning from two existing instructional video datasets, CrossTask and COIN, comprising 13,547 samples. Each sample involves the key state images along with their transformation descriptions. Our dataset covers diverse real-world activities, providing a rich resource for training and evaluation. To construct an initial benchmark for VTT, we test several models, including traditional visual storytelling methods (CST, GLACNet, Densecap) and advanced multimodal large language models (LLaVA v1.5-7B, Qwen-VL-chat, Gemini Pro Vision, GPT-4o, and GPT-4). Experimental results reveal that even state-of-the-art models still face challenges in VTT, highlighting substantial areas for improvement.
- Abstract(参考訳): 人間は、表面的な状態の違い(例えば地面の湿気)から、生活経験による変化(例えば雨)まで、自然に推論することができる。
本稿では,実世界のシナリオにおいて,この変換推論能力をテストするための新しい視覚的推論タスクを提案する。
一連の状態(すなわち画像)が与えられた場合、VTTは隣接する2つの状態間の変換を記述する必要がある。
表面状態推論にフォーカスする既存の視覚的推論タスクとは異なり、VTTの利点は、状態の違いの背後にある基本的な原因、例えばアクションやイベントをキャプチャすることである。
我々は,CrossTaskとCOINという2つの既存の指導ビデオデータセットから,13,547のサンプルからなる変換推論を支援する新しいデータセットを収集する。
各サンプルには、キー状態のイメージとその変換記述が含まれている。
我々のデータセットは、様々な現実世界のアクティビティをカバーし、トレーニングと評価のための豊富なリソースを提供する。
VTTの初期ベンチマークを構築するために、従来のビジュアルストーリーテリング手法(CST, GLACNet, Densecap)や高度なマルチモーダルな大規模言語モデル(LLaVA v1.5-7B, Qwen-VL-chat, Gemini Pro Vision, GPT-4o, GPT-4)など、いくつかのモデルを試した。
実験の結果、最先端モデルでさえもVTTの課題に直面しており、改善すべき領域を強調していることが明らかとなった。
関連論文リスト
- Supervised Fine-tuning in turn Improves Visual Foundation Models [74.1760864718129]
2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。
4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
論文 参考訳(メタデータ) (2024-01-18T18:58:54Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Visual Reasoning: from State to Transformation [80.32402545546209]
既存の視覚的推論タスクは重要な要素、すなわち変換を無視している。
本稿では,新しいテキスト変換駆動型視覚推論(TVR)タスクを提案する。
現状のビジュアル推論モデルは,Basic上では良好に機能するが,イベント,ビュー,TRANCOにおける人間レベルのインテリジェンスには程遠いことを示す。
論文 参考訳(メタデータ) (2023-05-02T14:24:12Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video
Paragraph Captioning [19.73126931526359]
ビデオパラグラフキャプションは、コヒーレントなストーリーテリングにおいて、複数の時間的イベント位置を持つ、トリミングされていないビデオのマルチ文記述を作成することを目的としている。
まず,視覚言語(VL)機能を提案する。提案するVL機能では,このシーンは (i) グローバルな視覚環境, (ii) ローカルな視覚メインエージェント, (iii) 言語シーン要素を含む3つのモードでモデル化される。
次に自動回帰変換器(TinT)を導入し、ビデオ内のイントラコンテンツとイントラコンテンツ間のセマンティックコヒーレンスを同時にキャプチャする。
論文 参考訳(メタデータ) (2022-11-28T07:39:20Z) - Visuo-Tactile Transformers for Manipulation [4.60687205898687]
本稿では,モデルに基づく強化学習と計画に適した,新しいマルチモーダル表現学習手法であるVisuo-Tactile Transformers(VTT)を提案する。
具体的には、VTTは触覚フィードバックと自己および横断的な注意を用いて、視覚領域における重要なタスク機能に注意を集中する潜時ヒートマップ表現を構築する。
論文 参考訳(メタデータ) (2022-09-30T22:38:29Z) - Fine-tuning Vision Transformers for the Prediction of State Variables in
Ising Models [2.9005223064604078]
Transformerは、スタックされた注意とポイントワイドで完全に接続されたレイヤで構成される最先端のディープラーニングモデルである。
本研究では、2次元イジングモデルシミュレーションの状態変数を予測するために視覚変換器(ViT)を適用した。
論文 参考訳(メタデータ) (2021-09-28T00:23:31Z) - Transformation Driven Visual Reasoning [80.32402545546209]
本稿では,重要な要因,すなわちトランスフォーメーションを導入することで,新たな視覚的推論パラダイムを定義する。
この種のテキスト状態駆動型視覚推論アプローチは、マシンが異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界がある、と我々は主張する。
実験結果から,現在最先端の視覚推論モデルは,Basic上では良好に動作するが,イベントやビューにおける人間レベルのインテリジェンスには程遠いことが示唆された。
論文 参考訳(メタデータ) (2020-11-26T07:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。