論文の概要: Why Relational Graphs Will Save the Next Generation of Vision Foundation Models?
- arxiv url: http://arxiv.org/abs/2508.18421v1
- Date: Mon, 25 Aug 2025 19:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.563783
- Title: Why Relational Graphs Will Save the Next Generation of Vision Foundation Models?
- Title(参考訳): リレーショナルグラフが次世代のビジョンファウンデーションモデルを救う理由
- Authors: Fatemeh Ziaeetabar,
- Abstract要約: ビジョン基礎モデル(FM)はコンピュータビジョンにおいて主要なアーキテクチャとなっている。
我々は、次世代FMは動的リレーショナルグラフとしてインスタンス化された明示的なリレーショナルインタフェースを組み込むべきであると論じる。
FMを軽量で文脈適応型グラフ推論モジュールで拡張することで、セマンティックな忠実度、分布外、解釈可能性、計算効率が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision foundation models (FMs) have become the predominant architecture in computer vision, providing highly transferable representations learned from large-scale, multimodal corpora. Nonetheless, they exhibit persistent limitations on tasks that require explicit reasoning over entities, roles, and spatio-temporal relations. Such relational competence is indispensable for fine-grained human activity recognition, egocentric video understanding, and multimodal medical image analysis, where spatial, temporal, and semantic dependencies are decisive for performance. We advance the position that next-generation FMs should incorporate explicit relational interfaces, instantiated as dynamic relational graphs (graphs whose topology and edge semantics are inferred from the input and task context). We illustrate this position with cross-domain evidence from recent systems in human manipulation action recognition and brain tumor segmentation, showing that augmenting FMs with lightweight, context-adaptive graph-reasoning modules improves fine-grained semantic fidelity, out of distribution robustness, interpretability, and computational efficiency relative to FM only baselines. Importantly, by reasoning sparsely over semantic nodes, such hybrids also achieve favorable memory and hardware efficiency, enabling deployment under practical resource constraints. We conclude with a targeted research agenda for FM graph hybrids, prioritizing learned dynamic graph construction, multi-level relational reasoning (e.g., part object scene in activity understanding, or region organ in medical imaging), cross-modal fusion, and evaluation protocols that directly probe relational competence in structured vision tasks.
- Abstract(参考訳): ビジョンファウンデーションモデル(FM)はコンピュータビジョンにおいて主要なアーキテクチャとなり、大規模なマルチモーダルコーパスから学習した高度に伝達可能な表現を提供する。
それでも、それらは、実体、役割、時空間的関係に対する明示的な推論を必要とするタスクに永続的な制限を示す。
このような関係能力は、微粒な人間の活動認識、自我中心の映像理解、空間的、時間的、意味的な依存関係がパフォーマンスに決定的であるマルチモーダルな医療画像解析に欠かせない。
我々は、次世代FMは、動的リレーショナルグラフ(入力とタスクコンテキストからトポロジとエッジセマンティクスが推測されるグラフ)としてインスタンス化される明示的なリレーショナルインタフェースを組み込むべきだという立場を前進させる。
本稿では,人間の操作行動認識と脳腫瘍のセグメンテーションにおける近年のシステムによるクロスドメインエビデンスを用いて,この位置について述べる。
重要なことは、セマンティックノードを軽視することで、そのようなハイブリッドは好ましいメモリとハードウェアの効率を実現し、実用的なリソース制約下でのデプロイメントを可能にします。
本研究は,FMグラフハイブリッドを対象とした研究課題,学習された動的グラフ構築の優先順位付け,マルチレベル関係推論(例えば,活動理解における部分オブジェクトシーン,医療画像における領域オルガン),クロスモーダル融合,構造化視覚タスクにおける関係能力を直接調査する評価プロトコルについて結論付けた。
関連論文リスト
- Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - A Pre-training Framework for Relational Data with Information-theoretic Principles [57.93973948947743]
本稿では,リレーショナルグラフ上の集合に基づくアグリゲーションを通じて,監視信号を構成する新しい事前学習フレームワークであるTask Vector Estimation (TVE)を紹介する。
TVEは従来のトレーニング前のベースラインを一貫して上回っている。
本研究は,関係データベース上での予測モデルの設計原則として,タスクの不均一性と時間構造を符号化する事前学習目的を提唱する。
論文 参考訳(メタデータ) (2025-07-14T00:17:21Z) - Leveraging Foundation Models for Multimodal Graph-Based Action Recognition [1.533133219129073]
動的視覚符号化のためのビデオMAEとコンテキストテキスト埋め込みのためのBERTを統合したグラフベースのフレームワークを提案する。
提案手法は,多様なベンチマークデータセット上で,最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-21T07:15:14Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Joint-Embedding Masked Autoencoder for Self-supervised Learning of Dynamic Functional Connectivity from the Human Brain [16.62883475350025]
グラフニューラルネットワーク(GNN)は、人間の脳ネットワークと表現型を区別するための動的機能接続の学習において、有望であることを示している。
本稿では,計算機ビジョンにおけるJEPA(Joint Embedding Predictive Architecture)からインスピレーションを得た,時空間連成型自動エンコーダ(ST-JEMA)について紹介する。
論文 参考訳(メタデータ) (2024-03-11T04:49:41Z) - Learning Attention-based Representations from Multiple Patterns for
Relation Prediction in Knowledge Graphs [2.4028383570062606]
AEMPは、エンティティのコンテキスト情報を取得することによって、コンテキスト化された表現を学習するための新しいモデルである。
AEMPは、最先端の関係予測手法よりも優れるか、競合する。
論文 参考訳(メタデータ) (2022-06-07T10:53:35Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Dynamic Adaptive Spatio-temporal Graph Convolution for fMRI Modelling [0.0]
本稿では,動的適応時間グラフ畳み込み(DASTGCN)モデルを提案する。
提案手法により,レイヤワイドグラフ構造学習モジュールによる脳領域間の動的接続のエンドツーエンド推論が可能となる。
我々は,安静時機能スキャンを用いて,英国ビオバンクのパイプラインを年齢・性別分類タスクとして評価した。
論文 参考訳(メタデータ) (2021-09-26T07:19:47Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z) - Graph Representation Learning via Graphical Mutual Information
Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。
我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文 参考訳(メタデータ) (2020-02-04T08:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。