Fugu-MT 論文翻訳(概要): Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols

論文の概要: Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols

arxiv url: http://arxiv.org/abs/2407.13382v1
Date: Thu, 18 Jul 2024 10:40:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 15:40:38.490984
Title: Open-World Visual Reasoning by a Neuro-Symbolic Program of Zero-Shot Symbols
Title（参考訳）: ゼロショットシンボルのニューロシンボリックプログラムによるオープンワールドビジュアル推論
Authors: Gertjan Burghouts, Fieke Hillerström, Erwin Walraven, Michael van Bekkum, Frank Ruis, Joris Sijs, Jelle van Mil, Judith Dijk,
Abstract要約: この研究は、画像中の物体の空間的構成を見つけるために、ニューロシンボリックプログラミング(推論)と言語ビジョンモデル(学習)を組み合わせた最初のものである。床に捨てられた道具を見つけ, パイプを漏らすことにより, 有効性を示す。
参考スコア（独自算出の注目度）: 0.8331498366387238
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the problem of finding spatial configurations of multiple objects in images, e.g., a mobile inspection robot is tasked to localize abandoned tools on the floor. We define the spatial configuration of objects by first-order logic in terms of relations and attributes. A neuro-symbolic program matches the logic formulas to probabilistic object proposals for the given image, provided by language-vision models by querying them for the symbols. This work is the first to combine neuro-symbolic programming (reasoning) and language-vision models (learning) to find spatial configurations of objects in images in an open world setting. We show the effectiveness by finding abandoned tools on floors and leaking pipes. We find that most prediction errors are due to biases in the language-vision model.
Abstract（参考訳）: 画像中の複数の物体の空間的配置を求める問題,例えば移動体検査ロボットは,床に捨てられた道具を位置決めする作業を行う。我々は,一階述語論理によるオブジェクトの空間的構成を関係や属性の観点から定義する。ニューロシンボリックプログラムは、論理式と与えられた画像に対する確率的オブジェクトの提案とを一致させる。この研究は、ニューロ・シンボリック・プログラミング(推論)と言語ビジョン・モデル(学習)を組み合わせて、オープン・ワールド・セッティングにおける画像内の物体の空間的構成を見つける最初のものである。床に捨てられた道具を見つけ, パイプを漏らすことにより, 有効性を示す。その結果,ほとんどの予測誤差は言語ビジョンモデルにおけるバイアスに起因することがわかった。

関連論文リスト

SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文参考訳（メタデータ） (2025-07-09T10:20:38Z)
Neurosymbolic Object-Centric Learning with Distant Supervision [5.402442420739707]
非構造化データから直接オブジェクト中心表現を学習するためのニューロシンボリックな定式化を提案する。このアプローチをニューロシンボリックモデルであるDeepObjectLogでインスタンス化する。音確率論的論理推論を有効にすることにより、記号成分は、新しい学習信号を導入する。
論文参考訳（メタデータ） (2025-06-19T08:26:42Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning [86.59849798539312]
本稿では,記号的・神経的知識表現の強みを組み合わせた一階抽象言語Neuro-Symbolic Predicatesを提案する。提案手法は, サンプルの複雑さの向上, 分布外一般化の強化, 解釈可能性の向上を実現する。
論文参考訳（メタデータ） (2024-10-30T16:11:05Z)
Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文参考訳（メタデータ） (2024-07-18T18:55:56Z)
Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations [4.807052027638089]
本稿では,NSI(Neural Slot Interpreter)を提案する。 NSIはXMLに似たプログラミング言語で、単純な構文規則を使ってシーンのオブジェクトの意味をオブジェクト中心のプログラムプリミティブに整理する。
論文参考訳（メタデータ） (2024-02-02T12:37:23Z)
One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文参考訳（メタデータ） (2022-10-21T17:33:14Z)
IFOR: Iterative Flow Minimization for Robotic Object Rearrangement [92.97142696891727]
IFOR(Iterative Flow Minimization for Robotic Object Rearrangement)は、未知物体の物体再構成問題に対するエンドツーエンドの手法である。本手法は,合成データのみを訓練しながら,散在するシーンや実世界に適用可能であることを示す。
論文参考訳（メタデータ） (2022-02-01T20:03:56Z)
Predicting Stable Configurations for Semantic Placement of Novel Objects [37.18437299513799]
我々のゴールは、新しい環境における学習された意味的関係に従って、ロボットが未確認の物体を配置できるようにすることである。我々は、未知のオブジェクトのセマンティック配置のための計画アルゴリズムと密に統合するために、モデルとトレーニングをゼロから構築する。提案手法は,RGB-Dセンシングのみによる形状の異なるシーンにおける未知物体のセマンティック・アレンジメントのための動作計画を可能にする。
論文参考訳（メタデータ） (2021-08-26T23:05:05Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)
Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文参考訳（メタデータ） (2021-03-09T19:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。