論文の概要: GG-SSMs: Graph-Generating State Space Models
- arxiv url: http://arxiv.org/abs/2412.12423v1
- Date: Tue, 17 Dec 2024 00:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:55.187847
- Title: GG-SSMs: Graph-Generating State Space Models
- Title(参考訳): GG-SSM: グラフ生成状態空間モデル
- Authors: Nikola Zubić, Davide Scaramuzza,
- Abstract要約: State Space Models (SSM) は、コンピュータビジョンと時系列分析ドメインのシーケンシャルデータをモデリングするための強力なツールである。
グラフ生成状態空間モデル(GG-SSM)は,特徴関係に基づいたグラフを動的に構築することにより,これらの制約を克服する新しいフレームワークである。
我々は、イベントベースのアイトラッキング、画像ネット分類、光フロー推定、および6つの時系列データセットを含む11の多様なデータセット上でGG-SSMを検証する。
- 参考スコア(独自算出の注目度): 18.718025325906762
- License:
- Abstract: State Space Models (SSMs) are powerful tools for modeling sequential data in computer vision and time series analysis domains. However, traditional SSMs are limited by fixed, one-dimensional sequential processing, which restricts their ability to model non-local interactions in high-dimensional data. While methods like Mamba and VMamba introduce selective and flexible scanning strategies, they rely on predetermined paths, which fails to efficiently capture complex dependencies. We introduce Graph-Generating State Space Models (GG-SSMs), a novel framework that overcomes these limitations by dynamically constructing graphs based on feature relationships. Using Chazelle's Minimum Spanning Tree algorithm, GG-SSMs adapt to the inherent data structure, enabling robust feature propagation across dynamically generated graphs and efficiently modeling complex dependencies. We validate GG-SSMs on 11 diverse datasets, including event-based eye-tracking, ImageNet classification, optical flow estimation, and six time series datasets. GG-SSMs achieve state-of-the-art performance across all tasks, surpassing existing methods by significant margins. Specifically, GG-SSM attains a top-1 accuracy of 84.9% on ImageNet, outperforming prior SSMs by 1%, reducing the KITTI-15 error rate to 2.77%, and improving eye-tracking detection rates by up to 0.33% with fewer parameters. These results demonstrate that dynamic scanning based on feature relationships significantly improves SSMs' representational power and efficiency, offering a versatile tool for various applications in computer vision and beyond.
- Abstract(参考訳): State Space Models (SSM) は、コンピュータビジョンと時系列分析ドメインのシーケンシャルデータをモデリングするための強力なツールである。
しかし、従来のSSMは固定された1次元逐次処理によって制限されており、高次元データにおける非局所的な相互作用をモデル化する能力を制限する。
MambaやVMambaのようなメソッドは選択的で柔軟なスキャン戦略を導入しているが、それらは所定のパスに依存しており、複雑な依存関係を効率的にキャプチャできない。
グラフ生成状態空間モデル(GG-SSM)は,特徴関係に基づいたグラフを動的に構築することにより,これらの制約を克服する新しいフレームワークである。
ChazelleのMinimum Spanning Treeアルゴリズムを使用すると、GG-SSMは固有のデータ構造に適応し、動的に生成されたグラフをまたいで堅牢な特徴伝搬を可能にし、複雑な依存関係を効率的にモデル化する。
我々は、イベントベースのアイトラッキング、画像ネット分類、光フロー推定、および6つの時系列データセットを含む11の多様なデータセット上でGG-SSMを検証する。
GG-SSMはすべてのタスクで最先端のパフォーマンスを達成し、既存の手法をはるかに上回っている。
具体的には、GG-SSMはImageNet上で84.9%の最高1の精度に達し、以前のSSMよりも1%向上し、KITTI-15エラーレートは2.77%減少し、より少ないパラメータで視線追跡検出率を0.33%改善した。
これらの結果から,特徴関係に基づく動的スキャニングにより,SSMの表現力と効率が大幅に向上し,コンピュータビジョンなど様々な用途に汎用的なツールが提供されることがわかった。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - LLM-Based Multi-Agent Systems are Scalable Graph Generative Models [73.28294528654885]
GraphAgent-Generator (GAG) は動的でテキスト対応のソーシャルグラフ生成のための新しいシミュレーションベースのフレームワークである。
GAGは、ゼロショットソーシャルグラフ生成のための時間ノードとエッジ生成プロセスをシミュレートする。
得られたグラフは7つの主要なマクロ的ネットワーク特性に付着し、微視的グラフ構造測定において11%の改善が達成される。
論文 参考訳(メタデータ) (2024-10-13T12:57:08Z) - DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs [59.434893231950205]
動的グラフ学習は、現実世界のシステムにおける進化の法則を明らかにすることを目的としている。
動的グラフ学習のための新しい連続状態空間モデルDyG-Mambaを提案する。
我々はDyG-Mambaがほとんどのデータセットで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-08-13T15:21:46Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Novel Representation Learning Technique using Graphs for Performance
Analytics [0.0]
本稿では,グラフニューラルネットワーク(GNN)技術の進歩を活用するために,パフォーマンスデータをグラフに変換する新しいアイデアを提案する。
ソーシャルネットワークのような他の機械学習アプリケーションドメインとは対照的に、グラフは提供されない。
我々は,GNNから生成された埋め込みの有効性を,単純なフィードフォワードニューラルネットワークによる回帰処理の性能評価に基づいて評価した。
論文 参考訳(メタデータ) (2024-01-19T16:34:37Z) - Sparse Graphical Linear Dynamical Systems [1.6635799895254402]
時系列データセットは機械学習の中心であり、科学と工学の様々な分野に応用されている。
本研究は,共同グラフィカル・モデリング・フレームワークを導入することでギャップを埋める新しい手法を提案する。
本稿では,DGLASSOを提案する。DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO。
論文 参考訳(メタデータ) (2023-07-06T14:10:02Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。