論文の概要: Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2602.20501v1
- Date: Tue, 24 Feb 2026 02:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.587893
- Title: Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models
- Title(参考訳): 視覚基礎モデルにおけるアクダクタンス推論のための探索とブリッジング幾何学-相互作用キュー
- Authors: Qing Zhang, Xuesong Li, Jing Zhang,
- Abstract要約: DINOのようなモデルが部分レベルの幾何学的構造をエンコードしているのに対し、Fluxのような生成モデルには、リッチで動詞条件の空間的注意マップが含まれています。
DINOの幾何学的プロトタイプをFluxの相互作用マップと無訓練でゼロショットで融合することにより、弱い教師付き手法と競合する可測性推定を実現する。
- 参考スコア(独自算出の注目度): 16.155405952834034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What does it mean for a visual system to truly understand affordance? We argue that this understanding hinges on two complementary capacities: geometric perception, which identifies the structural parts of objects that enable interaction, and interaction perception, which models how an agent's actions engage with those parts. To test this hypothesis, we conduct a systematic probing of Visual Foundation Models (VFMs). We find that models like DINO inherently encode part-level geometric structures, while generative models like Flux contain rich, verb-conditioned spatial attention maps that serve as implicit interaction priors. Crucially, we demonstrate that these two dimensions are not merely correlated but are composable elements of affordance. By simply fusing DINO's geometric prototypes with Flux's interaction maps in a training-free and zero-shot manner, we achieve affordance estimation competitive with weakly-supervised methods. This final fusion experiment confirms that geometric and interaction perception are the fundamental building blocks of affordance understanding in VFMs, providing a mechanistic account of how perception grounds action.
- Abstract(参考訳): 視覚システムにとって、余裕を本当に理解することは何を意味するのか?
この理解は、相互作用を可能にする物体の構造的部分を識別する幾何学的知覚と、エージェントの行動がそれらの部分とどのように関係するかをモデル化する相互作用知覚という2つの相補的能力に基づいている、と我々は主張する。
この仮説を検証するために、我々はVisual Foundation Models (VFM) の体系的探索を行う。
DINOのようなモデルは本来、部分レベルの幾何学構造を符号化しているが、Fluxのような生成モデルは、暗黙の相互作用の先行として機能する、豊かで動詞条件の空間的注意マップを含んでいる。
重要なことに、これらの2つの次元は単に相関するだけでなく、可利用性の構成可能な要素であることを示す。
DINOの幾何学的プロトタイプとFluxの相互作用マップを訓練不要かつゼロショットで簡単に融合させることで、弱教師付き手法と競合する可測性推定を実現する。
この最後の融合実験は、幾何学的および相互作用的知覚が、VFMにおける可視性理解の基本的な構成要素であることを確認し、知覚がどのように作用するかの力学的な説明を提供する。
関連論文リスト
- From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - Geometric Visual Fusion Graph Neural Networks for Multi-Person Human-Object Interaction Recognition in Videos [14.198003271084799]
ビデオにおけるHuman-Object Interaction(HOI)認識には、時間とともに進化していく視覚的パターンと幾何学的関係の両方を理解する必要がある。
本稿では,相互依存型実体グラフ学習と組み合わせた2重アテンション特徴フュージョンを用いたGeometric Visual Fusion Graph Neural Network (GeoVis-GNN)を提案する。
実世界のシナリオにHOI認識を前進させるために、コンカレント部分的相互作用データセットを導入する。
論文 参考訳(メタデータ) (2025-06-03T22:51:44Z) - Structure-Aware Correspondence Learning for Relative Pose Estimation [65.44234975976451]
相対的なポーズ推定は、オブジェクトに依存しないポーズ推定を達成するための有望な方法を提供する。
既存の3D対応方式は、可視領域における小さな重複と、可視領域に対する信頼できない特徴推定に悩まされている。
本稿では,2つの鍵モジュールからなる相対詩推定のための構造認識対応学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T13:43:44Z) - Unveiling Concept Attribution in Diffusion Models [12.77092262246859]
拡散モデルは、テキストプロンプトから現実的で高品質な画像を生成する際、顕著な能力を示した。
近年の研究では、他のレイヤがターゲット概念にどのように貢献するかを示すことなく、知識保存層を生成モデルにローカライズするために因果トレースを採用している。
成分属性を用いた拡散モデルを分解し,概念生成における各成分の重要性を体系的に明らかにする。
論文 参考訳(メタデータ) (2024-12-03T16:34:49Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Exploring the Representation Manifolds of Stable Diffusion Through the
Lens of Intrinsic Dimension [0.0]
安定拡散のプロンプトによって誘導される基本幾何学的性質を理解するための第一歩を踏み出す。
我々は,プロンプトの選択がモデルの両層における表現の本質的な次元に重大な影響を与えることを発見した。
我々の証拠は、本質的な次元は、異なるプロンプトがテキスト・ツー・イメージモデルに与える影響について将来の研究に有用なツールになり得ることを示唆している。
論文 参考訳(メタデータ) (2023-02-16T16:22:30Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。