論文の概要: Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation
- arxiv url: http://arxiv.org/abs/2408.15205v2
- Date: Wed, 23 Oct 2024 15:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 04:41:58.302371
- Title: Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation
- Title(参考訳): 手動のプロンプト依存性を低減するための幻覚の活用 : 即時セグメンテーション
- Authors: Jian Hu, Jiayi Lin, Junchi Yan, Shaogang Gong,
- Abstract要約: 本稿では,プロペラジェネレータとマスクジェネレータを備えたProMaC(Prompt-Mask Cycle Generation framework)を提案する。
プロンプトジェネレータは、最初は、テストイメージ上で拡張された文脈知識を抽出するための幻覚を探究する、複数スケールの思考プロンプトの連鎖を使用する。
生成されたマスクは、プロンプトジェネレータを反復的にタスク関連の画像領域に集中させ、無関係な幻覚を減らし、より良いプロンプトとマスクを共同で生成する。
- 参考スコア(独自算出の注目度): 74.04806143723597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Promptable segmentation typically requires instance-specific manual prompts to guide the segmentation of each desired object. To minimize such a need, task-generic promptable segmentation has been introduced, which employs a single task-generic prompt to segment various images of different objects in the same task. Current methods use Multimodal Large Language Models (MLLMs) to reason detailed instance-specific prompts from a task-generic prompt for improving segmentation accuracy. The effectiveness of this segmentation heavily depends on the precision of these derived prompts. However, MLLMs often suffer hallucinations during reasoning, resulting in inaccurate prompting. While existing methods focus on eliminating hallucinations to improve a model, we argue that MLLM hallucinations can reveal valuable contextual insights when leveraged correctly, as they represent pre-trained large-scale knowledge beyond individual images. In this paper, we utilize hallucinations to mine task-related information from images and verify its accuracy for enhancing precision of the generated prompts. Specifically, we introduce an iterative Prompt-Mask Cycle generation framework (ProMaC) with a prompt generator and a mask generator.The prompt generator uses a multi-scale chain of thought prompting, initially exploring hallucinations for extracting extended contextual knowledge on a test image.These hallucinations are then reduced to formulate precise instance-specific prompts, directing the mask generator to produce masks that are consistent with task semantics by mask semantic alignment. The generated masks iteratively induce the prompt generator to focus more on task-relevant image areas and reduce irrelevant hallucinations, resulting jointly in better prompts and masks. Experiments on 5 benchmarks demonstrate the effectiveness of ProMaC. Code given in https://lwpyh.github.io/ProMaC/.
- Abstract(参考訳): プロンプタブルなセグメンテーションは、典型的には、各所望のオブジェクトのセグメンテーションを導くために、インスタンス固有の手動プロンプトを必要とする。
このようなニーズを最小限に抑えるために、単一のタスクジェネリックプロンプトを使用して、異なるオブジェクトの様々なイメージを同じタスクに分割するタスクジェネリックプロンプトが導入された。
現在の手法では、MLLM(Multimodal Large Language Models)を使用して、タスクジェネリックプロンプトから詳細なインスタンス固有のプロンプトを推論し、セグメンテーション精度を向上させる。
このセグメンテーションの有効性は、これらの導出されたプロンプトの精度に大きく依存する。
しかし、MLLMは推論中に幻覚に悩まされ、不正確なプロンプトを引き起こす。
既存の手法では、モデルを改善するための幻覚の除去に重点を置いているが、MLLMの幻覚は、個々の画像を超えて訓練済みの大規模知識を表現するため、正しく活用された場合、貴重な文脈的洞察を明らかにすることができると論じている。
本稿では,画像からタスク関連情報を抽出するために幻覚を利用し,その精度を検証し,生成したプロンプトの精度を向上させる。
具体的には、プロンプト・マスクサイクル生成フレームワーク(ProMaC)をプロンプトジェネレータとマスクジェネレータで導入し、プロンプトジェネレータは、最初はテスト画像上の拡張文脈知識を抽出するための幻覚を探索し、これらの幻覚を正確にインスタンス固有のプロンプトに還元し、マスクジェネレータにマスクセマンティックアライメントによるタスクセマンティクスと整合したマスクを生成するよう指示する。
生成されたマスクは、プロンプトジェネレータを反復的にタスク関連の画像領域に集中させ、無関係な幻覚を減らし、より良いプロンプトとマスクを共同で生成する。
5つのベンチマークの実験では、ProMaCの有効性が示されている。
https://lwpyh.github.io/ProMaC/
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - DQFormer: Towards Unified LiDAR Panoptic Segmentation with Decoupled Queries [14.435906383301555]
本稿では,統合ワークフローにセマンティックとインスタンスセグメンテーションを実装するDQFormerという新しいフレームワークを提案する。
具体的には,セマンティクスを用いた情報的クエリを局所化して提案する,疎結合なクエリジェネレータを設計する。
また、クエリ指向マスクデコーダを導入し、対応するセグメンテーションマスクをデコードする。
論文 参考訳(メタデータ) (2024-08-28T14:14:33Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt
for Segmenting Camouflaged Objects [32.14438610147615]
我々はGeneralizable SAM(GenSAM)と呼ばれるテスト時間ごとの適応機構を導入し、視覚的プロンプトを自動生成し最適化する。
3つのベンチマーク実験により、GenSAMは点監督アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2023-12-12T15:43:36Z) - Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models [61.46999584579775]
汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-24T12:57:34Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Position-based Prompting for Health Outcome Generation [0.0]
そこで本研究では,各単語の位置情報をマスクに対するプロンプトで捕捉する位置認識機構について検討する。
我々のアプローチは、デフォルトのマスク言語モデル(MLM)表現がマスクトークンの予測に使用されるベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2022-03-30T16:44:04Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。