論文の概要: CRAFT: A Neuro-Symbolic Framework for Visual Functional Affordance Grounding
- arxiv url: http://arxiv.org/abs/2507.14426v1
- Date: Sat, 19 Jul 2025 01:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.882941
- Title: CRAFT: A Neuro-Symbolic Framework for Visual Functional Affordance Grounding
- Title(参考訳): CRAFT:視覚機能接地のためのニューロシンボリックフレームワーク
- Authors: Zhou Chen, Joe Lin, Sathyanarayanan N. Aakur,
- Abstract要約: CRAFT(CRAFT)は、可買性グラウンドの解釈のための神経象徴的枠組みである。
与えられたアクション(例えば「カット」)を可能にするシーン内のオブジェクトを識別する。
- 参考スコア(独自算出の注目度): 6.281229317487581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CRAFT, a neuro-symbolic framework for interpretable affordance grounding, which identifies the objects in a scene that enable a given action (e.g., "cut"). CRAFT integrates structured commonsense priors from ConceptNet and language models with visual evidence from CLIP, using an energy-based reasoning loop to refine predictions iteratively. This process yields transparent, goal-driven decisions to ground symbolic and perceptual structures. Experiments in multi-object, label-free settings demonstrate that CRAFT enhances accuracy while improving interpretability, providing a step toward robust and trustworthy scene understanding.
- Abstract(参考訳): CRAFTは,与えられたアクション(例えば「カット」)を可能にするシーン内の物体を識別する,アベイランスグラウンドディングを解釈するための神経象徴的フレームワークである。
CRAFTはConceptNetと言語モデルからの構造化コモンセンスをCLIPの視覚的証拠と統合し、エネルギーベースの推論ループを使用して予測を反復的に洗練する。
このプロセスは、象徴的かつ知覚的な構造を基盤として、透明でゴール駆動的な決定をもたらす。
ラベルのない多目的環境での実験では、CRAFTは解釈性を改善しながら精度を高め、堅牢で信頼性の高いシーン理解へのステップを提供する。
関連論文リスト
- Concept-Based Mechanistic Interpretability Using Structured Knowledge Graphs [3.429783703166407]
我々のフレームワークは、内部モデルコンポーネントを通して高レベルのセマンティック属性がどのように出現し、相互作用し、伝播するかを分析することによって、モデル行動のグローバルな分離を可能にします。
重要なイノベーションは、私たちがBAGELと名付けた視覚化プラットフォームです。
私たちのフレームワークはモデルに依存しないスケーラブルで、データセットバイアスの存在下でディープラーニングモデルがどのように一般化(あるいは失敗)するかを深く理解するのに役立ちます。
論文 参考訳(メタデータ) (2025-07-08T09:30:20Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Continually Learning Structured Visual Representations via Network Refinement with Rerelation [15.376349115976534]
現在の機械学習パラダイムは、ニューラルネットワークのような連続的な表現に依存しており、パラメータを近似結果に反復的に調整する。
構造化された連続的な方法で視覚空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:18:27Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - Neural Concept Binder [22.074896812195437]
本稿では、離散概念表現と連続概念表現の両方を導出するフレームワークであるNeural Concept Binder (NCB)を紹介する。
NCBの概念表現の構造的性質は、直感的な検査と外部知識の直接的な統合を可能にする。
新たに導入したCLEVR-Sudokuデータセットを用いて,NCBの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-14T11:52:09Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z) - Faster-LTN: a neuro-symbolic, end-to-end object detection architecture [6.262658726461965]
本稿では,畳み込みバックボーンとLTNからなる物体検出器であるFaster-LTNを提案する。
このアーキテクチャは、ラベル付き例と事前知識を組み合わせた基礎理論を最適化することで訓練される。
実験的な比較では、従来のFaster R-CNNアーキテクチャと競合する性能を示している。
論文 参考訳(メタデータ) (2021-07-05T09:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。