論文の概要: Leveraging Foundation Models for Multimodal Graph-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2505.15192v1
- Date: Wed, 21 May 2025 07:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.099957
- Title: Leveraging Foundation Models for Multimodal Graph-Based Action Recognition
- Title(参考訳): マルチモーダルグラフに基づく行動認識のための基礎モデルの活用
- Authors: Fatemeh Ziaeetabar, Florentin Wörgötter,
- Abstract要約: 動的視覚符号化のためのビデオMAEとコンテキストテキスト埋め込みのためのBERTを統合したグラフベースのフレームワークを提案する。
提案手法は,多様なベンチマークデータセット上で,最先端のベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 1.533133219129073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models have ushered in a new era for multimodal video understanding by enabling the extraction of rich spatiotemporal and semantic representations. In this work, we introduce a novel graph-based framework that integrates a vision-language foundation, leveraging VideoMAE for dynamic visual encoding and BERT for contextual textual embedding, to address the challenge of recognizing fine-grained bimanual manipulation actions. Departing from conventional static graph architectures, our approach constructs an adaptive multimodal graph where nodes represent frames, objects, and textual annotations, and edges encode spatial, temporal, and semantic relationships. These graph structures evolve dynamically based on learned interactions, allowing for flexible and context-aware reasoning. A task-specific attention mechanism within a Graph Attention Network further enhances this reasoning by modulating edge importance based on action semantics. Through extensive evaluations on diverse benchmark datasets, we demonstrate that our method consistently outperforms state-of-the-art baselines, underscoring the strength of combining foundation models with dynamic graph-based reasoning for robust and generalizable action recognition.
- Abstract(参考訳): ファウンデーションモデルは、豊かな時空間的および意味的表現の抽出を可能にすることで、マルチモーダルなビデオ理解の新しい時代へと導いてきた。
本研究では,動的ビジュアルエンコーディングにビデオMAE,コンテキストテキスト埋め込みにBERTを活用し,視覚言語基盤を統合した新しいグラフベースのフレームワークを提案する。
従来の静的グラフアーキテクチャとは別に,ノードがフレーム,オブジェクト,テキストアノテーションを表現する適応型マルチモーダルグラフを構築し,エッジが空間的,時間的,意味的な関係を符号化する。
これらのグラフ構造は、学習された相互作用に基づいて動的に進化し、柔軟でコンテキスト対応の推論を可能にする。
グラフ注意ネットワーク内のタスク固有の注意機構は、アクションセマンティクスに基づいてエッジの重要度を調整することにより、この推論をさらに強化する。
多様なベンチマークデータセットの広範な評価を通じて、我々の手法は最先端のベースラインを一貫して上回り、基礎モデルと頑健で一般化可能なアクション認識のための動的グラフベースの推論を組み合わせるという強みを裏付ける。
関連論文リスト
- Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - DynaGRAG | Exploring the Topology of Information for Advancing Language Understanding and Generation in Graph Retrieval-Augmented Generation [0.0]
知識グラフ内の部分グラフ表現と多様性の向上に焦点をあてて,新しい GRAG フレームワークである Dynamic Graph Retrieval-Agumented Generation (DynaGRAG) を提案する。
実験の結果,DynaGRAGの有効性が示され,言語理解と生成の改善のための部分グラフ表現と多様性の強化の重要性が示された。
論文 参考訳(メタデータ) (2024-12-24T16:06:53Z) - Towards Graph Foundation Models: Training on Knowledge Graphs Enables Transferability to General Graphs [26.477872205199667]
知識グラフをトレーニングするために設計された統合グラフ推論フレームワークであるSCRを紹介する。
本稿では,従来のKG推論における意味的分離に対処する新しいメカニズムであるセマンティックコンディショニングメッセージパッシングを提案する。
以上の結果から,既存の基礎モデルよりも大幅な性能向上が見られた。
論文 参考訳(メタデータ) (2024-10-16T14:26:08Z) - Retrieval Augmented Generation for Dynamic Graph Modeling [15.09162213134372]
動的グラフモデリングのための新しいフレームワークRetrieval-Augmented Generation(RAG4DyG)を提案する。
RAG4DyGは、より広いグラフ構造から文脈的および時間的に関連する例を組み込むことで、動的グラフ予測を強化する。
提案するフレームワークは、トランスダクティブシナリオとインダクティブシナリオの両方に有効であるように設計されている。
論文 参考訳(メタデータ) (2024-08-26T09:23:35Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。