論文の概要: Dynamic Double Space Tower
- arxiv url: http://arxiv.org/abs/2506.11394v1
- Date: Fri, 13 Jun 2025 01:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.621716
- Title: Dynamic Double Space Tower
- Title(参考訳): ダイナミックダブルスペースタワー
- Authors: Weikai Sun, Shijie Song, Han Wang,
- Abstract要約: 本研究は,モデルの推論能力を高めるために,注目機構を置き換える新しい手法を提案する。
具体的には,人間のジェスチャー視覚の原理に従って画像の観察を行うために,動的双方向空間タワーを4層に分割して提案する。
これは自然界において、エンティティ間の空間的構造に強力な構造的事前を与えるため、もはやピクセル間の関係を盲目的に検索することができない。
- 参考スコア(独自算出の注目度): 4.553359878415195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Visual Question Answering (VQA) task requires the simultaneous understanding of image content and question semantics. However, existing methods often have difficulty handling complex reasoning scenarios due to insufficient cross-modal interaction and capturing the entity spatial relationships in the image.\cite{huang2023adaptive}\cite{liu2021comparing}\cite{guibas2021adaptive}\cite{zhang2022vsa}We studied a brand-new approach to replace the attention mechanism in order to enhance the reasoning ability of the model and its understanding of spatial relationships.Specifically, we propose a dynamic bidirectional spatial tower, which is divided into four layers to observe the image according to the principle of human gestalt vision. This naturally provides a powerful structural prior for the spatial organization between entities, enabling the model to no longer blindly search for relationships between pixels but make judgments based on more meaningful perceptual units. Change from "seeing images" to "perceiving and organizing image content".A large number of experiments have shown that our module can be used in any other multimodal model and achieve advanced results, demonstrating its potential in spatial relationship processing.Meanwhile, the multimodal visual question-answering model July trained by our method has achieved state-of-the-art results with only 3B parameters, especially on the question-answering dataset of spatial relations.
- Abstract(参考訳): Visual Question Answering (VQA)タスクは、画像の内容と質問の意味を同時に理解する必要がある。
しかし,既存の手法では,モーダル間相互作用が不十分なため複雑な推論シナリオの処理が困難であり,画像内の実体的空間的関係を捉えることが難しい場合が多い。
そこで,本研究では,人体視の原理に従って映像を観察する4層に分割した動的双方向空間塔を提案する。
これは自然界において、実体間の空間的構造に強力な構造的先行を与えるもので、モデルがもはやピクセル間の関係を盲目的に探すことなく、より意味のある知覚単位に基づいて判断することを可能にする。
画像」から「画像内容の知覚と整理」へ。
多くの実験により,我々のモジュールは他のマルチモーダルモデルでも使用でき,空間的関係処理においてその可能性を示す高度な結果が得られることが示されており,また,この手法により7月に訓練された多モーダル視覚質問応答モデルは,特に空間的関係の質問応答データセットにおいて,最先端の3Bパラメータのみを用いて達成されている。
関連論文リスト
- Learning semantical dynamics and spatiotemporal collaboration for human pose estimation in video [3.2195139886901813]
マルチレベル意味論と多フレーム人間のポーズ推定を学習する新しいフレームワークを提案する。
具体的には、まずマルチタスクコンテキストを設計し、再構築戦略を示す。
この戦略は、光学(パッチ)立方体とフレームの特徴を徐々に隠蔽することにより、フレーム間の多時的意味関係を探索するモデルを刺激する。
論文 参考訳(メタデータ) (2025-02-15T00:35:34Z) - Interpretable deformable image registration: A geometric deep learning perspective [9.13809412085203]
解釈可能な登録フレームワークを設計するための理論的基盤を提示する。
粗い方法で変換を洗練するエンドツーエンドのプロセスを定式化します。
我々は、最先端のアプローチよりもパフォーマンスの指標が大幅に改善されたと結論付けている。
論文 参考訳(メタデータ) (2024-12-17T19:47:10Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Learning In-between Imagery Dynamics via Physical Latent Spaces [0.7366405857677226]
本稿では,連続した時間ステップで観察される2つの画像間の基礎となるダイナミクスを学習するためのフレームワークを提案する。
偏微分方程式(PDE)で表される物理モデルに従う潜在変数を組み込むことにより,本手法は学習モデルの解釈可能性を保証する。
地質画像データを用いた数値実験により,学習フレームワークの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T05:14:51Z) - Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition [5.083140094792973]
SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。
広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2023-05-22T03:04:22Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。