論文の概要: Set2Seq Transformer: Temporal and Positional-Aware Set Representations for Sequential Multiple-Instance Learning
- arxiv url: http://arxiv.org/abs/2408.03404v2
- Date: Wed, 23 Apr 2025 21:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.914386
- Title: Set2Seq Transformer: Temporal and Positional-Aware Set Representations for Sequential Multiple-Instance Learning
- Title(参考訳): Set2Seq Transformer:逐次マルチインスタンス学習のための時間・位置認識型集合表現
- Authors: Athanasios Efthymiou, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring,
- Abstract要約: 置換不変な集合構造と時間的依存を共同でモデル化する新しいアーキテクチャである Set2Seq Transformer を提案する。
時間的および位置的パターンとともに、セット構造の両方をモデル化する必要がある2つのタスクについて、Set2Seq Transformerを評価した。
- 参考スコア(独自算出の注目度): 12.724750260261068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential multiple-instance learning involves learning representations of sets distributed across discrete timesteps. In many real-world applications, modeling both the internal structure of sets and their temporal relationships across time is essential for capturing complex underlying patterns. However, existing methods either focus on learning set representations at a static level, ignoring temporal dynamics, or treat sequences as ordered lists of individual elements, lacking explicit mechanisms to represent sets. In this work, we propose Set2Seq Transformer, a novel architecture that jointly models permutation-invariant set structure and temporal dependencies by learning temporal and positional-aware representations of sets within a sequence in an end-to-end multimodal manner. We evaluate our Set2Seq Transformer on two tasks that require modeling both set structure alongside temporal and positional patterns, but differ significantly in domain, modality, and objective. First, we consider a fine-art analysis task, modeling artists' oeuvres for predicting artistic success using a novel dataset, WikiArt-Seq2Rank. Second, we utilize our Set2Seq Transformer for a short-term wildfire danger forecasting task. Through extensive experimentation, we show that our Set2Seq Transformer significantly improves over traditional static multiple-instance learning methods by effectively learning permutation-invariant set, temporal, and positional-aware representations across diverse domains, modalities, and tasks. We will release both the dataset and model implementations on GitHub.
- Abstract(参考訳): 連続した多重インスタンス学習は、離散時間ステップにまたがる集合の表現を学習する。
多くの実世界の応用において、集合の内部構造と時間的関係の両方をモデル化することは、複雑な基礎となるパターンを捉えるのに不可欠である。
しかし、既存の手法では、静的レベルでの集合表現の学習、時間的ダイナミクスを無視したり、配列を個々の要素の順序付きリストとして扱い、集合を表現するための明示的なメカニズムが欠如している。
本研究では,列内の集合の時間的および位置的認識的表現をエンドツーエンドのマルチモーダルな方法で学習することにより,置換不変な集合構造と時間的依存を共同でモデル化する新しいアーキテクチャであるSet2Seq Transformerを提案する。
時間的および位置的パターンと並行してセット構造をモデル化する必要のある2つのタスクに対して,Set2Seq Transformerを評価した。
まず,新しいデータセット WikiArt-Seq2Rank を用いて,芸術的成功を予測するためのアーティストの振舞いをモデル化する。
第2に、短期的な山火事危険予報作業にSet2Seq Transformerを使用します。
広汎な実験により,Set2Seq Transformerは,様々な領域,モダリティ,タスクにまたがる置換不変集合,時間的および位置認識表現を効果的に学習することにより,従来の静的マルチインスタンス学習法よりも大幅に改善されていることを示す。
データセットとモデルの実装の両方をGitHubでリリースします。
関連論文リスト
- Scalable Permutation-Aware Modeling for Temporal Set Prediction [8.122126170969365]
時間的集合予測は、先行集合の列が与えられたとき、次の集合に現れる要素を予測することを伴う。
既存の手法はしばしば計算オーバーヘッドがかなり大きい複雑なアーキテクチャに依存している。
我々は、置換同変および置換同変変換を利用する、新しくスケーラブルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-04-23T23:14:35Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - Leveraging 2D Information for Long-term Time Series Forecasting with Vanilla Transformers [55.475142494272724]
時系列予測は、様々な領域における複雑な力学の理解と予測に不可欠である。
GridTSTは、革新的な多方向性の注意を用いた2つのアプローチの利点を組み合わせたモデルである。
このモデルは、さまざまな現実世界のデータセットに対して、常に最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-05-22T16:41:21Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - UniST: Towards Unifying Saliency Transformer for Video Saliency
Prediction and Detection [9.063895463649414]
このフレームワークは、ビデオ・サリエンシ・予測とビデオ・サリエンシ・オブジェクト検出の基本的な属性を包括的に活用する。
私たちの知る限りでは、これは、両方の相性モデリングタスクのためのトランスフォーマー構造の設計を探求する最初の作業です。
論文 参考訳(メタデータ) (2023-09-15T07:39:53Z) - TimeTuner: Diagnosing Time Representations for Time-Series Forecasting
with Counterfactual Explanations [3.8357850372472915]
本稿では,モデル行動が局所化,定常性,時系列表現の相関とどのように関連しているかをアナリストが理解するために,新しいビジュアル分析フレームワークであるTimeTunerを提案する。
TimeTunerは時系列表現を特徴付けるのに役立ち、機能エンジニアリングのプロセスを導くのに役立ちます。
論文 参考訳(メタデータ) (2023-07-19T11:40:15Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Scale-Aware Neural Architecture Search for Multivariate Time Series
Forecasting [7.877931505819402]
MTS予測のためのスケール対応ニューラルネットワーク探索フレームワーク(SNAS4MTF)を提案する。
マルチスケール分解モジュールは、生の時系列をマルチスケールサブシリーズに変換する。
適応グラフ学習モジュールは、異なる時間スケールで異なる変数間の依存関係を推論する。
論文 参考訳(メタデータ) (2021-12-14T15:14:03Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Representing Unordered Data Using Complex-Weighted Multiset Automata [23.68657135308002]
我々は、既存のニューラルネットワークアーキテクチャのマルチセット表現を、我々の特別なケースとみなすことができることを示す。
すなわち、正弦波関数を用いたトランスフォーマーモデルの位置表現に対して、新しい理論的、直感的な正当性を与える。
私たちはDeepSetsモデルを複雑な数に拡張し、既存のモデルをそのタスクの1つの拡張で上回るようにします。
論文 参考訳(メタデータ) (2020-01-02T20:04:45Z) - A Deep Structural Model for Analyzing Correlated Multivariate Time
Series [11.009809732645888]
相関した多変量時系列入力を処理できる深層学習構造時系列モデルを提案する。
モデルは、トレンド、季節性、イベントコンポーネントを明示的に学習し、抽出する。
我々は,様々な時系列データセットに関する総合的な実験を通して,そのモデルと最先端のいくつかの手法を比較した。
論文 参考訳(メタデータ) (2020-01-02T18:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。