論文の概要: DeiSAM: Segment Anything with Deictic Prompting
- arxiv url: http://arxiv.org/abs/2402.14123v1
- Date: Wed, 21 Feb 2024 20:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:12:30.970668
- Title: DeiSAM: Segment Anything with Deictic Prompting
- Title(参考訳): DeiSAM: Deictic Promptingを使ったセグメンテーション
- Authors: Hikaru Shindo, Manuel Brack, Gopika Sudhakaran, Devendra Singh Dhami,
Patrick Schramowski, Kristian Kersting
- Abstract要約: DeiSAMは、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせである。
オブジェクトを論理的に推論された画像領域にマッチングすることで、オブジェクトをセグメント化する。
実験の結果,DeiSAMは純粋にデータ駆動ベースラインよりも大幅に改善されていることがわかった。
- 参考スコア(独自算出の注目度): 27.960890657540443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale, pre-trained neural networks have demonstrated strong
capabilities in various tasks, including zero-shot image segmentation. To
identify concrete objects in complex scenes, humans instinctively rely on
deictic descriptions in natural language, i.e., referring to something
depending on the context such as "The object that is on the desk and behind the
cup.". However, deep learning approaches cannot reliably interpret such deictic
representations due to their lack of reasoning capabilities in complex
scenarios. To remedy this issue, we propose DeiSAM -- a combination of large
pre-trained neural networks with differentiable logic reasoners -- for deictic
promptable segmentation. Given a complex, textual segmentation description,
DeiSAM leverages Large Language Models (LLMs) to generate first-order logic
rules and performs differentiable forward reasoning on generated scene graphs.
Subsequently, DeiSAM segments objects by matching them to the logically
inferred image regions. As part of our evaluation, we propose the Deictic
Visual Genome (DeiVG) dataset, containing paired visual input and complex,
deictic textual prompts. Our empirical results demonstrate that DeiSAM is a
substantial improvement over purely data-driven baselines for deictic
promptable segmentation.
- Abstract(参考訳): 大規模で事前学習されたニューラルネットワークは、ゼロショット画像のセグメンテーションなど、さまざまなタスクにおいて強力な能力を示している。
複雑な場面で具体的対象を特定するために、人間は自然言語における直観的な記述、すなわち「机の上とカップの後ろの物体」のような文脈に依拠する何かに本能的に依存する。
しかし、複雑なシナリオにおける推論能力の欠如により、深層学習のアプローチは、このような難解な表現を確実に解釈することはできない。
この問題を修正するために、私たちは、DeiSAM(Deictic promptable segmentationのための、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせ)を提案する。
複雑なテキストセグメンテーションの記述が与えられた後、DeiSAMはLarge Language Models (LLM)を活用して一階論理ルールを生成し、生成されたシーングラフ上で微分可能な前方推論を行う。
その後、DeiSAMはオブジェクトを論理的に推論された画像領域にマッチさせてセグメント化する。
評価の一環として,2組の視覚入力と複雑なテキストプロンプトを含むDeictic Visual Genome (DeiVG)データセットを提案する。
実験結果から,DeiSAMは純粋にデータ駆動のベースラインよりも大幅に改善され,難解なセグメンテーションが可能であった。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - CoReS: Orchestrating the Dance of Reasoning and Segmentation [17.767049542947497]
セグメンテーションを推論する行為は、人間の視覚探索の認知段階を反映すべきである。
本稿では,Reasoning and Segmenting (CoReS) の連鎖を紹介する。
実験では、ReasonSegデータセットで最先端の手法を7.1%上回るCoReSの優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-08T16:55:39Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Microscopy Image Segmentation via Point and Shape Regularized Data
Synthesis [9.47802391546853]
合成学習データを用いた顕微鏡画像セグメンテーションのための統一パイプラインを構築した。
本フレームワークは,濃密なラベルを持つ高精度な顕微鏡画像で訓練されたモデルと同等の結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T22:00:53Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Context Label Learning: Improving Background Class Representations in
Semantic Segmentation [23.79946807540805]
不均一な背景を持つニューラルネットワークは、対応するコンテキストサンプルを特徴空間内のコンパクトクラスタにマッピングするのに苦労している。
背景クラスを複数のサブクラスに分解することでコンテキスト表現を改善するためにコンテキストラベル学習(CoLab)を提案する。
結果は、CoLabがセグメンテーションモデルをガイドして、背景サンプルのログを決定境界から切り離すことができることを示している。
論文 参考訳(メタデータ) (2022-12-16T11:52:15Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Self-Supervised Learning of Object Parts for Semantic Segmentation [7.99536002595393]
我々は、オブジェクト部品の自己教師型学習がこの問題の解決策であると主張している。
本手法は3つのセマンティックセグメンテーションベンチマークの最先端を17%-3%超える。
論文 参考訳(メタデータ) (2022-04-27T17:55:17Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。