論文の概要: DeiSAM: Segment Anything with Deictic Prompting
- arxiv url: http://arxiv.org/abs/2402.14123v1
- Date: Wed, 21 Feb 2024 20:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:12:30.970668
- Title: DeiSAM: Segment Anything with Deictic Prompting
- Title(参考訳): DeiSAM: Deictic Promptingを使ったセグメンテーション
- Authors: Hikaru Shindo, Manuel Brack, Gopika Sudhakaran, Devendra Singh Dhami,
Patrick Schramowski, Kristian Kersting
- Abstract要約: DeiSAMは、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせである。
オブジェクトを論理的に推論された画像領域にマッチングすることで、オブジェクトをセグメント化する。
実験の結果,DeiSAMは純粋にデータ駆動ベースラインよりも大幅に改善されていることがわかった。
- 参考スコア(独自算出の注目度): 27.960890657540443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale, pre-trained neural networks have demonstrated strong
capabilities in various tasks, including zero-shot image segmentation. To
identify concrete objects in complex scenes, humans instinctively rely on
deictic descriptions in natural language, i.e., referring to something
depending on the context such as "The object that is on the desk and behind the
cup.". However, deep learning approaches cannot reliably interpret such deictic
representations due to their lack of reasoning capabilities in complex
scenarios. To remedy this issue, we propose DeiSAM -- a combination of large
pre-trained neural networks with differentiable logic reasoners -- for deictic
promptable segmentation. Given a complex, textual segmentation description,
DeiSAM leverages Large Language Models (LLMs) to generate first-order logic
rules and performs differentiable forward reasoning on generated scene graphs.
Subsequently, DeiSAM segments objects by matching them to the logically
inferred image regions. As part of our evaluation, we propose the Deictic
Visual Genome (DeiVG) dataset, containing paired visual input and complex,
deictic textual prompts. Our empirical results demonstrate that DeiSAM is a
substantial improvement over purely data-driven baselines for deictic
promptable segmentation.
- Abstract(参考訳): 大規模で事前学習されたニューラルネットワークは、ゼロショット画像のセグメンテーションなど、さまざまなタスクにおいて強力な能力を示している。
複雑な場面で具体的対象を特定するために、人間は自然言語における直観的な記述、すなわち「机の上とカップの後ろの物体」のような文脈に依拠する何かに本能的に依存する。
しかし、複雑なシナリオにおける推論能力の欠如により、深層学習のアプローチは、このような難解な表現を確実に解釈することはできない。
この問題を修正するために、私たちは、DeiSAM(Deictic promptable segmentationのための、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせ)を提案する。
複雑なテキストセグメンテーションの記述が与えられた後、DeiSAMはLarge Language Models (LLM)を活用して一階論理ルールを生成し、生成されたシーングラフ上で微分可能な前方推論を行う。
その後、DeiSAMはオブジェクトを論理的に推論された画像領域にマッチさせてセグメント化する。
評価の一環として,2組の視覚入力と複雑なテキストプロンプトを含むDeictic Visual Genome (DeiVG)データセットを提案する。
実験結果から,DeiSAMは純粋にデータ駆動のベースラインよりも大幅に改善され,難解なセグメンテーションが可能であった。
関連論文リスト
- VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - CoReS: Orchestrating the Dance of Reasoning and Segmentation [17.767049542947497]
セグメンテーションを推論する行為は、人間の視覚探索の認知段階を反映すべきである。
本稿では,Reasoning and Segmenting (CoReS) の連鎖を紹介する。
実験では、ReasonSegデータセットで最先端の手法を6.5%上回るCoReSの優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-08T16:55:39Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Microscopy Image Segmentation via Point and Shape Regularized Data
Synthesis [9.47802391546853]
合成学習データを用いた顕微鏡画像セグメンテーションのための統一パイプラインを構築した。
本フレームワークは,濃密なラベルを持つ高精度な顕微鏡画像で訓練されたモデルと同等の結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T22:00:53Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Context Label Learning: Improving Background Class Representations in
Semantic Segmentation [23.79946807540805]
不均一な背景を持つニューラルネットワークは、対応するコンテキストサンプルを特徴空間内のコンパクトクラスタにマッピングするのに苦労している。
背景クラスを複数のサブクラスに分解することでコンテキスト表現を改善するためにコンテキストラベル学習(CoLab)を提案する。
結果は、CoLabがセグメンテーションモデルをガイドして、背景サンプルのログを決定境界から切り離すことができることを示している。
論文 参考訳(メタデータ) (2022-12-16T11:52:15Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。