論文の概要: Image Manipulation via Multi-Hop Instructions -- A New Dataset and
Weakly-Supervised Neuro-Symbolic Approach
- arxiv url: http://arxiv.org/abs/2305.14410v2
- Date: Tue, 24 Oct 2023 20:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 20:53:12.685272
- Title: Image Manipulation via Multi-Hop Instructions -- A New Dataset and
Weakly-Supervised Neuro-Symbolic Approach
- Title(参考訳): マルチホップインストラクションによる画像操作 -- 新しいデータセットと弱スーパービジョンニューロシンボリックアプローチ
- Authors: Harman Singh, Poorva Garg, Mohit Gupta, Kevin Shah, Ashish Goswami,
Satyam Modi, Arnab Kumar Mondal, Dinesh Khandelwal, Dinesh Garg, Parag Singla
- Abstract要約: 私たちは自然言語による画像操作に興味があります。
NeuroSIMと呼ばれるシステムでは,多目的シーン上で複雑なマルチホップ推論を行うことができる。
- 参考スコア(独自算出の注目度): 31.380435286215757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in image manipulation via natural language text -- a task
that is useful for multiple AI applications but requires complex reasoning over
multi-modal spaces. We extend recently proposed Neuro Symbolic Concept Learning
(NSCL), which has been quite effective for the task of Visual Question
Answering (VQA), for the task of image manipulation. Our system referred to as
NeuroSIM can perform complex multi-hop reasoning over multi-object scenes and
only requires weak supervision in the form of annotated data for VQA. NeuroSIM
parses an instruction into a symbolic program, based on a Domain Specific
Language (DSL) comprising of object attributes and manipulation operations,
that guides its execution. We create a new dataset for the task, and extensive
experiments demonstrate that NeuroSIM is highly competitive with or beats SOTA
baselines that make use of supervised data for manipulation.
- Abstract(参考訳): 私たちは自然言語テキストによるイメージ操作に関心があります -- 複数のAIアプリケーションに有用なタスクですが、マルチモーダルスペースに対する複雑な推論が必要です。
近年提案されているニューロシンボリック・コンセプト・ラーニング(nscl)を,画像操作のための視覚質問応答(vqa)のタスクに非常に効果的に拡張した。
NeuroSIM と呼ばれるシステムでは,マルチオブジェクトシーン上で複雑なマルチホップ推論を行うことができ,VQA の注釈付きデータ形式において弱い監視しか必要としない。
NeuroSIMは、オブジェクト属性と操作操作からなるドメイン固有言語(DSL)に基づいて、命令をシンボルプログラムに解析し、その実行を導く。
我々はタスクのための新しいデータセットを作成し、幅広い実験により、neurosimが教師付きデータを使用して操作するsataベースラインと高い競合性を示している。
関連論文リスト
- The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。
ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。
新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2024-02-02T20:33:14Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal
Scene Understanding [0.0]
SNeL(Structured Neuro-symbolic Language, 構造化ニューラルシンボリック言語)は,マルチモーダルデータを処理するニューラルネットワークとのニュアンスな相互作用を容易にする汎用的なクエリ言語である。
SNeLの表現的インターフェースは、複雑なクエリの構築、論理演算と算術演算子、コンパレータ、ネストなどをサポートする。
我々の評価は、SNeLが複雑なニューラルネットワークとの相互作用を形作る可能性を示している。
論文 参考訳(メタデータ) (2023-06-09T17:01:51Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - Visual Programming: Compositional visual reasoning without training [24.729624386851388]
VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。
大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
論文 参考訳(メタデータ) (2022-11-18T18:50:09Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - VGNMN: Video-grounded Neural Module Network to Video-Grounded Language
Tasks [73.04906599884868]
VGNMN(Video-grounded Neural Module Network)を導入して,ビデオベース言語タスクにおける情報検索プロセスをモデル化する。
VGNMNはまずすべての言語コンポーネントを分解し、エンティティ参照を明示的に解決し、質問からアクションベースの入力を検出する。
論文 参考訳(メタデータ) (2021-04-16T06:47:41Z) - Question Answering over Knowledge Bases by Leveraging Semantic Parsing
and Neuro-Symbolic Reasoning [73.00049753292316]
本稿では,意味解析と推論に基づくニューロシンボリック質問回答システムを提案する。
NSQAはQALD-9とLC-QuAD 1.0で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-12-03T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。