Fugu-MT 論文翻訳(概要): Visual Transformation Telling

論文の概要: Visual Transformation Telling

arxiv url: http://arxiv.org/abs/2305.01928v1
Date: Wed, 3 May 2023 07:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-04 15:53:02.649508
Title: Visual Transformation Telling
Title（参考訳）: ビジュアルトランスフォーメーション
Authors: Xin Hong, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng
Abstract要約: ビジュアルトランスフォーメーション・テリング(VTT)と呼ばれる新しい視覚的推論タスクを提案する。このタスクは、一連の2つの隣接する状態(すなわち画像)間で発生した変換を記述する機械を必要とする。我々は、CrossTaskとCOINという2つの指導ビデオデータセットから13,547のサンプルを収集し、望ましい状態と変換記述を抽出した。
参考スコア（独自算出の注目度）: 80.32402545546209
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we propose a new visual reasoning task, called Visual Transformation Telling (VTT). This task requires a machine to describe the transformation that occurred between every two adjacent states (i.e. images) in a series. Unlike most existing visual reasoning tasks that focus on state reasoning, VTT emphasizes transformation reasoning. We collected 13,547 samples from two instructional video datasets, CrossTask and COIN, and extracted desired states and transformation descriptions to create a suitable VTT benchmark dataset. Humans can naturally reason from superficial states differences (e.g. ground wetness) to transformations descriptions (e.g. raining) according to their life experience but how to model this process to bridge this semantic gap is challenging. We designed TTNet on top of existing visual storytelling models by enhancing the model's state-difference sensitivity and transformation-context awareness. TTNet significantly outperforms other baseline models adapted from similar tasks, such as visual storytelling and dense video captioning, demonstrating the effectiveness of our modeling on transformations. Through comprehensive diagnostic analyses, we found TTNet has strong context utilization abilities, but even with some state-of-the-art techniques such as CLIP, there remain challenges in generalization that need to be further explored.
Abstract（参考訳）: 本稿では,ビジュアルトランスフォーメーション・テリング(VTT)と呼ばれる新しい視覚的推論タスクを提案する。このタスクは、一連の2つの隣接する状態(すなわち画像)間で発生した変換を記述する機械を必要とする。状態推論に重点を置く既存の視覚推論タスクとは異なり、VTTは変換推論を強調している。我々は、CrossTaskとCOINという2つのインストラクショナルビデオデータセットから13,547のサンプルを収集し、望ましいVTTベンチマークデータセットを作成するために、望ましい状態と変換記述を抽出した。人間は、表面的な状態の違い(例えば、地面の湿気)から、生活経験に基づく変化の記述(例えば、雨)まで、自然に推論できるが、この過程をモデル化して、このセマンティックギャップを橋渡しする方法は難しい。我々は,既存のビジュアルストーリーテリングモデル上にTTNetを設計し,モデルの状態差感度と変換コンテキスト認識を強化した。 TTNetは、視覚的なストーリーテリングや高密度ビデオキャプションといった類似のタスクに適応した他のベースラインモデルよりも優れており、我々のモデリングが変換に与える影響を実証している。包括的診断分析により,TTNetには強い文脈利用能力があることがわかったが,CLIPのような最先端技術でも,さらなる検討を要する一般化の課題が残っている。

関連論文リスト

VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。 VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2025-08-06T03:07:05Z)
Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning? [92.23438255540968]
Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。 19の異なるデータセットとタスクを包括的に分析します。本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
論文参考訳（メタデータ） (2024-01-23T16:48:18Z)
Supervised Fine-tuning in turn Improves Visual Foundation Models [74.1760864718129]
2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。 4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
論文参考訳（メタデータ） (2024-01-18T18:58:54Z)
Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文参考訳（メタデータ） (2023-08-15T05:08:12Z)
Visual Reasoning: from State to Transformation [80.32402545546209]
既存の視覚的推論タスクは重要な要素、すなわち変換を無視している。本稿では,新しいテキスト変換駆動型視覚推論(TVR)タスクを提案する。現状のビジュアル推論モデルは,Basic上では良好に機能するが,イベント,ビュー,TRANCOにおける人間レベルのインテリジェンスには程遠いことを示す。
論文参考訳（メタデータ） (2023-05-02T14:24:12Z)
PointVST: Self-Supervised Pre-training for 3D Point Clouds via View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。 3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文参考訳（メタデータ） (2022-12-29T07:03:29Z)
VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning [19.73126931526359]
ビデオパラグラフキャプションは、コヒーレントなストーリーテリングにおいて、複数の時間的イベント位置を持つ、トリミングされていないビデオのマルチ文記述を作成することを目的としている。まず,視覚言語(VL)機能を提案する。提案するVL機能では,このシーンは (i) グローバルな視覚環境, (ii) ローカルな視覚メインエージェント, (iii) 言語シーン要素を含む3つのモードでモデル化される。次に自動回帰変換器(TinT)を導入し、ビデオ内のイントラコンテンツとイントラコンテンツ間のセマンティックコヒーレンスを同時にキャプチャする。
論文参考訳（メタデータ） (2022-11-28T07:39:20Z)
Visuo-Tactile Transformers for Manipulation [4.60687205898687]
本稿では,モデルに基づく強化学習と計画に適した,新しいマルチモーダル表現学習手法であるVisuo-Tactile Transformers(VTT)を提案する。具体的には、VTTは触覚フィードバックと自己および横断的な注意を用いて、視覚領域における重要なタスク機能に注意を集中する潜時ヒートマップ表現を構築する。
論文参考訳（メタデータ） (2022-09-30T22:38:29Z)
Fine-tuning Vision Transformers for the Prediction of State Variables in Ising Models [2.9005223064604078]
Transformerは、スタックされた注意とポイントワイドで完全に接続されたレイヤで構成される最先端のディープラーニングモデルである。本研究では、2次元イジングモデルシミュレーションの状態変数を予測するために視覚変換器(ViT)を適用した。
論文参考訳（メタデータ） (2021-09-28T00:23:31Z)
Transformation Driven Visual Reasoning [80.32402545546209]
本稿では,重要な要因,すなわちトランスフォーメーションを導入することで,新たな視覚的推論パラダイムを定義する。この種のテキスト状態駆動型視覚推論アプローチは、マシンが異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界がある、と我々は主張する。実験結果から,現在最先端の視覚推論モデルは,Basic上では良好に動作するが,イベントやビューにおける人間レベルのインテリジェンスには程遠いことが示唆された。
論文参考訳（メタデータ） (2020-11-26T07:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。