論文の概要: Set2Seq Transformer: Learning Permutation Aware Set Representations of Artistic Sequences
- arxiv url: http://arxiv.org/abs/2408.03404v1
- Date: Tue, 6 Aug 2024 18:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 14:26:26.356102
- Title: Set2Seq Transformer: Learning Permutation Aware Set Representations of Artistic Sequences
- Title(参考訳): Set2Seq Transformer:アートシーケンスの集合表現を学習する
- Authors: Athanasios Efthymiou, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring,
- Abstract要約: 離散時間ステップの時間的位置認識表現を学習することで、静的な視覚的複数インスタンス学習法を大幅に改善できることを示す。
本稿では,このSet2Seq Transformerを用いて,視覚アーティストの眼球運動のモデル化に視覚的集合と時間的位置認識表現を活用することにより,芸術的成功を予測できることを示す。
- 参考スコア(独自算出の注目度): 12.724750260261068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Set2Seq Transformer, a novel sequential multiple instance architecture, that learns to rank permutation aware set representations of sequences. First, we illustrate that learning temporal position-aware representations of discrete timesteps can greatly improve static visual multiple instance learning methods that do not regard temporality and concentrate almost exclusively on visual content analysis. We further demonstrate the significant advantages of end-to-end sequential multiple instance learning, integrating visual content and temporal information in a multimodal manner. As application we focus on fine art analysis related tasks. To that end, we show that our Set2Seq Transformer can leverage visual set and temporal position-aware representations for modelling visual artists' oeuvres for predicting artistic success. Finally, through extensive quantitative and qualitative evaluation using a novel dataset, WikiArt-Seq2Rank, and a visual learning-to-rank downstream task, we show that our Set2Seq Transformer captures essential temporal information improving the performance of strong static and sequential multiple instance learning methods for predicting artistic success.
- Abstract(参考訳): 本稿では, 列列の列列化を意識した集合表現のランク付けを学習する新しいシーケンシャル・マルチ・インスタンス・アーキテクチャである Set2Seq Transformer を提案する。
まず、離散時間ステップの時間的位置認識表現の学習は、時間性に配慮せず、ほとんど視覚的コンテンツ分析に集中する静的な視覚的複数インスタンス学習法を大幅に改善できることを示す。
さらに、視覚的内容と時間的情報をマルチモーダルな方法で統合することで、エンドツーエンドの連続した複数インスタンス学習の大きな利点を実証する。
応用として、美術分析関連タスクに焦点をあてる。
この結果から,私たちのSet2Seq Transformerは視覚的集合と時間的位置認識表現を応用して,視覚的アーティストの眼球運動をモデル化し,芸術的成功を予測できることが示唆された。
最後に,新しいデータセット,WikiArt-Seq2Rank,およびビジュアルラーニング・ツー・ランクダウンストリームタスクを用いて,定量的・質的な評価を行うことにより,Set2Seq Transformerは,強力な静的およびシーケンシャルな複数インスタンス学習手法の性能向上を図り,芸術的成功を予測できることを示す。
関連論文リスト
- UniST: Towards Unifying Saliency Transformer for Video Saliency
Prediction and Detection [9.063895463649414]
このフレームワークは、ビデオ・サリエンシ・予測とビデオ・サリエンシ・オブジェクト検出の基本的な属性を包括的に活用する。
私たちの知る限りでは、これは、両方の相性モデリングタスクのためのトランスフォーマー構造の設計を探求する最初の作業です。
論文 参考訳(メタデータ) (2023-09-15T07:39:53Z) - TimeTuner: Diagnosing Time Representations for Time-Series Forecasting
with Counterfactual Explanations [3.8357850372472915]
本稿では,モデル行動が局所化,定常性,時系列表現の相関とどのように関連しているかをアナリストが理解するために,新しいビジュアル分析フレームワークであるTimeTunerを提案する。
TimeTunerは時系列表現を特徴付けるのに役立ち、機能エンジニアリングのプロセスを導くのに役立ちます。
論文 参考訳(メタデータ) (2023-07-19T11:40:15Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。