Fugu-MT 論文翻訳(概要): DeiSAM: Segment Anything with Deictic Prompting

論文の概要: DeiSAM: Segment Anything with Deictic Prompting

arxiv url: http://arxiv.org/abs/2402.14123v1
Date: Wed, 21 Feb 2024 20:43:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 17:12:30.970668
Title: DeiSAM: Segment Anything with Deictic Prompting
Title（参考訳）: DeiSAM: Deictic Promptingを使ったセグメンテーション
Authors: Hikaru Shindo, Manuel Brack, Gopika Sudhakaran, Devendra Singh Dhami, Patrick Schramowski, Kristian Kersting
Abstract要約: DeiSAMは、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせである。オブジェクトを論理的に推論された画像領域にマッチングすることで、オブジェクトをセグメント化する。実験の結果,DeiSAMは純粋にデータ駆動ベースラインよりも大幅に改善されていることがわかった。
参考スコア（独自算出の注目度）: 27.960890657540443
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale, pre-trained neural networks have demonstrated strong capabilities in various tasks, including zero-shot image segmentation. To identify concrete objects in complex scenes, humans instinctively rely on deictic descriptions in natural language, i.e., referring to something depending on the context such as "The object that is on the desk and behind the cup.". However, deep learning approaches cannot reliably interpret such deictic representations due to their lack of reasoning capabilities in complex scenarios. To remedy this issue, we propose DeiSAM -- a combination of large pre-trained neural networks with differentiable logic reasoners -- for deictic promptable segmentation. Given a complex, textual segmentation description, DeiSAM leverages Large Language Models (LLMs) to generate first-order logic rules and performs differentiable forward reasoning on generated scene graphs. Subsequently, DeiSAM segments objects by matching them to the logically inferred image regions. As part of our evaluation, we propose the Deictic Visual Genome (DeiVG) dataset, containing paired visual input and complex, deictic textual prompts. Our empirical results demonstrate that DeiSAM is a substantial improvement over purely data-driven baselines for deictic promptable segmentation.
Abstract（参考訳）: 大規模で事前学習されたニューラルネットワークは、ゼロショット画像のセグメンテーションなど、さまざまなタスクにおいて強力な能力を示している。複雑な場面で具体的対象を特定するために、人間は自然言語における直観的な記述、すなわち「机の上とカップの後ろの物体」のような文脈に依拠する何かに本能的に依存する。しかし、複雑なシナリオにおける推論能力の欠如により、深層学習のアプローチは、このような難解な表現を確実に解釈することはできない。この問題を修正するために、私たちは、DeiSAM(Deictic promptable segmentationのための、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせ)を提案する。複雑なテキストセグメンテーションの記述が与えられた後、DeiSAMはLarge Language Models (LLM)を活用して一階論理ルールを生成し、生成されたシーングラフ上で微分可能な前方推論を行う。その後、DeiSAMはオブジェクトを論理的に推論された画像領域にマッチさせてセグメント化する。評価の一環として,2組の視覚入力と複雑なテキストプロンプトを含むDeictic Visual Genome (DeiVG)データセットを提案する。実験結果から,DeiSAMは純粋にデータ駆動のベースラインよりも大幅に改善され,難解なセグメンテーションが可能であった。

関連論文リスト

X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文参考訳（メタデータ） (2025-08-06T17:19:10Z)
Talk2SAM: Text-Guided Semantic Enhancement for Complex-Shaped Object Segmentation [0.0]
本研究では,オブジェクトセグメンテーションを改善するためにテキストガイダンスを統合する新しいアプローチであるTalk2SAMを提案する。ユーザが提供するテキストプロンプトから派生したCLIPベースの埋め込みを使用して、関連する意味領域を識別する。 Talk2SAMはSAM-HQを一貫して上回り、IoUは+5.9%、IoUは+8.3%である。
論文参考訳（メタデータ） (2025-06-03T19:53:10Z)
Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文参考訳（メタデータ） (2025-03-10T16:26:11Z)
NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning [22.60247555240363]
本稿では,人間の認知のような推論を必要とする手法の課題について考察する。本研究では,明示的な確率論的論理推論を統合する構成的視覚的接地手法であるNAVERを提案する。その結果、NAVERは最近のエンドツーエンドや構成ベースラインと比較して SoTA の性能が向上していることがわかった。
論文参考訳（メタデータ） (2025-02-01T09:19:08Z)
SAM-Aware Graph Prompt Reasoning Network for Cross-Domain Few-Shot Segmentation [25.00605325290872]
本稿では,CD-FSS特徴表現学習のガイドとして,SAM対応グラフプロンプト推論ネットワーク(GPRN)を提案する。 GPRNはSAMによって生成されたマスクを高レベルの意味情報に富んだ視覚的なプロンプトに変換する。提案手法は, 新たな最先端結果を確立するものである。
論文参考訳（メタデータ） (2024-12-31T06:38:49Z)
VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文参考訳（メタデータ） (2024-07-16T02:29:29Z)
Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文参考訳（メタデータ） (2024-07-14T15:02:54Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
CoReS: Orchestrating the Dance of Reasoning and Segmentation [17.767049542947497]
セグメンテーションを推論する行為は、人間の視覚探索の認知段階を反映すべきである。本稿では,Reasoning and Segmenting (CoReS) の連鎖を紹介する。実験では、ReasonSegデータセットで最先端の手法を6.5%上回るCoReSの優れた性能を示す。
論文参考訳（メタデータ） (2024-04-08T16:55:39Z)
LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文参考訳（メタデータ） (2023-09-24T05:43:19Z)
Microscopy Image Segmentation via Point and Shape Regularized Data Synthesis [9.47802391546853]
合成学習データを用いた顕微鏡画像セグメンテーションのための統一パイプラインを構築した。本フレームワークは,濃密なラベルを持つ高精度な顕微鏡画像で訓練されたモデルと同等の結果が得られる。
論文参考訳（メタデータ） (2023-08-18T22:00:53Z)
LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文参考訳（メタデータ） (2023-08-01T17:50:17Z)
Context Label Learning: Improving Background Class Representations in Semantic Segmentation [23.79946807540805]
不均一な背景を持つニューラルネットワークは、対応するコンテキストサンプルを特徴空間内のコンパクトクラスタにマッピングするのに苦労している。背景クラスを複数のサブクラスに分解することでコンテキスト表現を改善するためにコンテキストラベル学習(CoLab)を提案する。結果は、CoLabがセグメンテーションモデルをガイドして、背景サンプルのログを決定境界から切り離すことができることを示している。
論文参考訳（メタデータ） (2022-12-16T11:52:15Z)
Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文参考訳（メタデータ） (2022-05-30T17:50:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。