Fugu-MT 論文翻訳(概要): Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach

論文の概要: Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach

arxiv url: http://arxiv.org/abs/2305.14410v2
Date: Tue, 24 Oct 2023 20:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 20:53:12.685272
Title: Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach
Title（参考訳）: マルチホップインストラクションによる画像操作 -- 新しいデータセットと弱スーパービジョンニューロシンボリックアプローチ
Authors: Harman Singh, Poorva Garg, Mohit Gupta, Kevin Shah, Ashish Goswami, Satyam Modi, Arnab Kumar Mondal, Dinesh Khandelwal, Dinesh Garg, Parag Singla
Abstract要約: 私たちは自然言語による画像操作に興味があります。 NeuroSIMと呼ばれるシステムでは,多目的シーン上で複雑なマルチホップ推論を行うことができる。
参考スコア（独自算出の注目度）: 31.380435286215757
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We are interested in image manipulation via natural language text -- a task that is useful for multiple AI applications but requires complex reasoning over multi-modal spaces. We extend recently proposed Neuro Symbolic Concept Learning (NSCL), which has been quite effective for the task of Visual Question Answering (VQA), for the task of image manipulation. Our system referred to as NeuroSIM can perform complex multi-hop reasoning over multi-object scenes and only requires weak supervision in the form of annotated data for VQA. NeuroSIM parses an instruction into a symbolic program, based on a Domain Specific Language (DSL) comprising of object attributes and manipulation operations, that guides its execution. We create a new dataset for the task, and extensive experiments demonstrate that NeuroSIM is highly competitive with or beats SOTA baselines that make use of supervised data for manipulation.
Abstract（参考訳）: 私たちは自然言語テキストによるイメージ操作に関心があります -- 複数のAIアプリケーションに有用なタスクですが、マルチモーダルスペースに対する複雑な推論が必要です。近年提案されているニューロシンボリック・コンセプト・ラーニング(nscl)を,画像操作のための視覚質問応答(vqa)のタスクに非常に効果的に拡張した。 NeuroSIM と呼ばれるシステムでは,マルチオブジェクトシーン上で複雑なマルチホップ推論を行うことができ,VQA の注釈付きデータ形式において弱い監視しか必要としない。 NeuroSIMは、オブジェクト属性と操作操作からなるドメイン固有言語(DSL)に基づいて、命令をシンボルプログラムに解析し、その実行を導く。我々はタスクのための新しいデータセットを作成し、幅広い実験により、neurosimが教師付きデータを使用して操作するsataベースラインと高い競合性を示している。

関連論文リスト

Auxiliary Metrics Help Decoding Skill Neurons in the Wild [52.148049490080496]
我々は、特定のスキルをコードするニューロンを分離するための、シンプルで軽量で広く適用可能な方法を紹介した。我々は,ニューロンの活性化を,外部ラベルやモデル自身の信頼スコアなどの補助的指標と相関する。我々は,オープンエンドテキスト生成と自然言語推論にまたがるタスクに対して,我々の手法を実証的に検証する。
論文参考訳（メタデータ） (2025-11-26T17:31:53Z)
Detecting AI Assistance in Abstract Complex Tasks [2.249916681499244]
アシスタント検出は、特に抽象的なタスクデータを見る場合、人間にとって困難である。我々は,そのようなデータを適切に前処理した場合に,共通モデルが効果的に分類できることを示す。 3つの古典的なディープラーニングアーキテクチャにおける画像定式化の質をベンチマークする。
論文参考訳（メタデータ） (2025-07-14T19:37:36Z)
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。 Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文参考訳（メタデータ） (2025-03-16T12:48:17Z)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
Visual Graph Question Answering with ASP and LLMs for Language Parsing [10.012129232671635]
我々は、ASPを視覚と自然言語処理のモジュールと統合する方法の問題に対処し、新しい要求のあるVQAの変種を解決する。我々のモジュラー型ニューロシンボリックアプローチは、グラフ解析のための光グラフ認識、ラベル解析のための事前訓練された光学文字認識ニューラルネットワーク、言語処理のための大言語モデル(LLM)、推論のためのASPを組み合わせる。
論文参考訳（メタデータ） (2025-02-13T11:47:59Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
VoxelPrompt: A Vision-Language Agent for Grounded Medical Image Analysis [9.937830036053871]
VoxelPromptは、自然言語、画像ボリューム、分析メトリクスの合同モデリングを通じて、様々な放射線学的な課題に取り組む。我々は,VoxelPromptが数百の解剖学的,病理学的特徴を記述し,多くの複雑な形態的特性を計測し,病変の特徴をオープン言語で解析できることを示した。
論文参考訳（メタデータ） (2024-10-10T22:11:43Z)
A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。 VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文参考訳（メタデータ） (2024-05-23T01:43:54Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文参考訳（メタデータ） (2024-02-02T20:33:14Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal Scene Understanding [0.0]
SNeL(Structured Neuro-symbolic Language, 構造化ニューラルシンボリック言語)は,マルチモーダルデータを処理するニューラルネットワークとのニュアンスな相互作用を容易にする汎用的なクエリ言語である。 SNeLの表現的インターフェースは、複雑なクエリの構築、論理演算と算術演算子、コンパレータ、ネストなどをサポートする。我々の評価は、SNeLが複雑なニューラルネットワークとの相互作用を形作る可能性を示している。
論文参考訳（メタデータ） (2023-06-09T17:01:51Z)
Visual Programming: Compositional visual reasoning without training [24.729624386851388]
VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
論文参考訳（メタデータ） (2022-11-18T18:50:09Z)
Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文参考訳（メタデータ） (2022-06-21T19:01:19Z)
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文参考訳（メタデータ） (2021-12-10T14:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。