論文の概要: Set2Seq Transformer: Learning Permutation Aware Set Representations of Artistic Sequences
- arxiv url: http://arxiv.org/abs/2408.03404v1
- Date: Tue, 6 Aug 2024 18:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-08 14:26:26.356102
- Title: Set2Seq Transformer: Learning Permutation Aware Set Representations of Artistic Sequences
- Title(参考訳): Set2Seq Transformer:アートシーケンスの集合表現を学習する
- Authors: Athanasios Efthymiou, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring,
- Abstract要約: 離散時間ステップの時間的位置認識表現を学習することで、静的な視覚的複数インスタンス学習法を大幅に改善できることを示す。
本稿では,このSet2Seq Transformerを用いて,視覚アーティストの眼球運動のモデル化に視覚的集合と時間的位置認識表現を活用することにより,芸術的成功を予測できることを示す。
- 参考スコア(独自算出の注目度): 12.724750260261068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Set2Seq Transformer, a novel sequential multiple instance architecture, that learns to rank permutation aware set representations of sequences. First, we illustrate that learning temporal position-aware representations of discrete timesteps can greatly improve static visual multiple instance learning methods that do not regard temporality and concentrate almost exclusively on visual content analysis. We further demonstrate the significant advantages of end-to-end sequential multiple instance learning, integrating visual content and temporal information in a multimodal manner. As application we focus on fine art analysis related tasks. To that end, we show that our Set2Seq Transformer can leverage visual set and temporal position-aware representations for modelling visual artists' oeuvres for predicting artistic success. Finally, through extensive quantitative and qualitative evaluation using a novel dataset, WikiArt-Seq2Rank, and a visual learning-to-rank downstream task, we show that our Set2Seq Transformer captures essential temporal information improving the performance of strong static and sequential multiple instance learning methods for predicting artistic success.
- Abstract(参考訳): 本稿では, 列列の列列化を意識した集合表現のランク付けを学習する新しいシーケンシャル・マルチ・インスタンス・アーキテクチャである Set2Seq Transformer を提案する。
まず、離散時間ステップの時間的位置認識表現の学習は、時間性に配慮せず、ほとんど視覚的コンテンツ分析に集中する静的な視覚的複数インスタンス学習法を大幅に改善できることを示す。
さらに、視覚的内容と時間的情報をマルチモーダルな方法で統合することで、エンドツーエンドの連続した複数インスタンス学習の大きな利点を実証する。
応用として、美術分析関連タスクに焦点をあてる。
この結果から,私たちのSet2Seq Transformerは視覚的集合と時間的位置認識表現を応用して,視覚的アーティストの眼球運動をモデル化し,芸術的成功を予測できることが示唆された。
最後に,新しいデータセット,WikiArt-Seq2Rank,およびビジュアルラーニング・ツー・ランクダウンストリームタスクを用いて,定量的・質的な評価を行うことにより,Set2Seq Transformerは,強力な静的およびシーケンシャルな複数インスタンス学習手法の性能向上を図り,芸術的成功を予測できることを示す。
関連論文リスト
- Scalable Permutation-Aware Modeling for Temporal Set Prediction [8.122126170969365]
時間的集合予測は、先行集合の列が与えられたとき、次の集合に現れる要素を予測することを伴う。
既存の手法はしばしば計算オーバーヘッドがかなり大きい複雑なアーキテクチャに依存している。
我々は、置換同変および置換同変変換を利用する、新しくスケーラブルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-04-23T23:14:35Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - Leveraging 2D Information for Long-term Time Series Forecasting with Vanilla Transformers [55.475142494272724]
時系列予測は、様々な領域における複雑な力学の理解と予測に不可欠である。
GridTSTは、革新的な多方向性の注意を用いた2つのアプローチの利点を組み合わせたモデルである。
このモデルは、さまざまな現実世界のデータセットに対して、常に最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-05-22T16:41:21Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - UniST: Towards Unifying Saliency Transformer for Video Saliency
Prediction and Detection [9.063895463649414]
このフレームワークは、ビデオ・サリエンシ・予測とビデオ・サリエンシ・オブジェクト検出の基本的な属性を包括的に活用する。
私たちの知る限りでは、これは、両方の相性モデリングタスクのためのトランスフォーマー構造の設計を探求する最初の作業です。
論文 参考訳(メタデータ) (2023-09-15T07:39:53Z) - TimeTuner: Diagnosing Time Representations for Time-Series Forecasting
with Counterfactual Explanations [3.8357850372472915]
本稿では,モデル行動が局所化,定常性,時系列表現の相関とどのように関連しているかをアナリストが理解するために,新しいビジュアル分析フレームワークであるTimeTunerを提案する。
TimeTunerは時系列表現を特徴付けるのに役立ち、機能エンジニアリングのプロセスを導くのに役立ちます。
論文 参考訳(メタデータ) (2023-07-19T11:40:15Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Scale-Aware Neural Architecture Search for Multivariate Time Series
Forecasting [7.877931505819402]
MTS予測のためのスケール対応ニューラルネットワーク探索フレームワーク(SNAS4MTF)を提案する。
マルチスケール分解モジュールは、生の時系列をマルチスケールサブシリーズに変換する。
適応グラフ学習モジュールは、異なる時間スケールで異なる変数間の依存関係を推論する。
論文 参考訳(メタデータ) (2021-12-14T15:14:03Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Representing Unordered Data Using Complex-Weighted Multiset Automata [23.68657135308002]
我々は、既存のニューラルネットワークアーキテクチャのマルチセット表現を、我々の特別なケースとみなすことができることを示す。
すなわち、正弦波関数を用いたトランスフォーマーモデルの位置表現に対して、新しい理論的、直感的な正当性を与える。
私たちはDeepSetsモデルを複雑な数に拡張し、既存のモデルをそのタスクの1つの拡張で上回るようにします。
論文 参考訳(メタデータ) (2020-01-02T20:04:45Z) - A Deep Structural Model for Analyzing Correlated Multivariate Time
Series [11.009809732645888]
相関した多変量時系列入力を処理できる深層学習構造時系列モデルを提案する。
モデルは、トレンド、季節性、イベントコンポーネントを明示的に学習し、抽出する。
我々は,様々な時系列データセットに関する総合的な実験を通して,そのモデルと最先端のいくつかの手法を比較した。
論文 参考訳(メタデータ) (2020-01-02T18:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。