論文の概要: Image Manipulation via Multi-Hop Instructions -- A New Dataset and
Weakly-Supervised Neuro-Symbolic Approach
- arxiv url: http://arxiv.org/abs/2305.14410v1
- Date: Tue, 23 May 2023 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:14:22.215235
- Title: Image Manipulation via Multi-Hop Instructions -- A New Dataset and
Weakly-Supervised Neuro-Symbolic Approach
- Title(参考訳): マルチホップインストラクションによる画像操作 -- 新しいデータセットと弱スーパービジョンニューロシンボリックアプローチ
- Authors: Harman Singh, Poorva Garg, Mohit Gupta, Kevin Shah, Arnab Kumar
Mondal, Dinesh Khandelwal, Parag Singla, Dinesh Garg
- Abstract要約: 私たちは自然言語による画像操作に興味があります。
NeuroSIMと呼ばれるシステムでは,多目的シーン上で複雑なマルチホップ推論を行うことができる。
- 参考スコア(独自算出の注目度): 29.63667007399827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in image manipulation via natural language text -- a task
that is useful for multiple AI applications but requires complex reasoning over
multi-modal spaces. We extend recently proposed Neuro Symbolic Concept Learning
(NSCL), which has been quite effective for the task of Visual Question
Answering (VQA), for the task of image manipulation. Our system referred to as
NeuroSIM can perform complex multi-hop reasoning over multi-object scenes and
only requires weak supervision in the form of annotated data for VQA. NeuroSIM
parses an instruction into a symbolic program, based on a Domain Specific
Language (DSL) comprising of object attributes and manipulation operations,
that guides its execution. We create a new dataset for the task, and extensive
experiments demonstrate that NeuroSIM is highly competitive with or beats SOTA
baselines that make use of supervised data for manipulation.
- Abstract(参考訳): 私たちは自然言語テキストによるイメージ操作に関心があります -- 複数のAIアプリケーションに有用なタスクですが、マルチモーダルスペースに対する複雑な推論が必要です。
近年提案されているニューロシンボリック・コンセプト・ラーニング(nscl)を,画像操作のための視覚質問応答(vqa)のタスクに非常に効果的に拡張した。
NeuroSIM と呼ばれるシステムでは,マルチオブジェクトシーン上で複雑なマルチホップ推論を行うことができ,VQA の注釈付きデータ形式において弱い監視しか必要としない。
NeuroSIMは、オブジェクト属性と操作操作からなるドメイン固有言語(DSL)に基づいて、命令をシンボルプログラムに解析し、その実行を導く。
我々はタスクのための新しいデータセットを作成し、幅広い実験により、neurosimが教師付きデータを使用して操作するsataベースラインと高い競合性を示している。
関連論文リスト
- VoxelPrompt: A Vision-Language Agent for Grounded Medical Image Analysis [9.937830036053871]
VoxelPromptは、自然言語、画像ボリューム、分析メトリクスの合同モデリングを通じて、様々な放射線学的な課題に取り組む。
我々は,VoxelPromptが数百の解剖学的,病理学的特徴を記述し,多くの複雑な形態的特性を計測し,病変の特徴をオープン言語で解析できることを示した。
論文 参考訳(メタデータ) (2024-10-10T22:11:43Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。
汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。
VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。
ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。
新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2024-02-02T20:33:14Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal
Scene Understanding [0.0]
SNeL(Structured Neuro-symbolic Language, 構造化ニューラルシンボリック言語)は,マルチモーダルデータを処理するニューラルネットワークとのニュアンスな相互作用を容易にする汎用的なクエリ言語である。
SNeLの表現的インターフェースは、複雑なクエリの構築、論理演算と算術演算子、コンパレータ、ネストなどをサポートする。
我々の評価は、SNeLが複雑なニューラルネットワークとの相互作用を形作る可能性を示している。
論文 参考訳(メタデータ) (2023-06-09T17:01:51Z) - Visual Programming: Compositional visual reasoning without training [24.729624386851388]
VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。
大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
論文 参考訳(メタデータ) (2022-11-18T18:50:09Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。