論文の概要: Prompt-Driven Image Analysis with Multimodal Generative AI: Detection, Segmentation, Inpainting, and Interpretation
- arxiv url: http://arxiv.org/abs/2509.08489v1
- Date: Wed, 10 Sep 2025 11:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.399172
- Title: Prompt-Driven Image Analysis with Multimodal Generative AI: Detection, Segmentation, Inpainting, and Interpretation
- Title(参考訳): マルチモーダル生成AIを用いたプロンプト駆動画像解析:検出、セグメンテーション、塗装、解釈
- Authors: Kaleem Ahmad,
- Abstract要約: 本稿では,オープン語彙検出,アクセシブルセグメンテーション,テキストコンディショニング,視覚言語記述を組み合わせた統合パイプラインの実践事例について述べる。
我々は、しきい値調整、光形態によるマスク検査、リソース認識のデフォルトなど、脆さを低減する統合選択を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-driven image analysis converts a single natural-language instruction into multiple steps: locate, segment, edit, and describe. We present a practical case study of a unified pipeline that combines open-vocabulary detection, promptable segmentation, text-conditioned inpainting, and vision-language description into a single workflow. The system works end to end from a single prompt, retains intermediate artifacts for transparent debugging (such as detections, masks, overlays, edited images, and before and after composites), and provides the same functionality through an interactive UI and a scriptable CLI for consistent, repeatable runs. We highlight integration choices that reduce brittleness, including threshold adjustments, mask inspection with light morphology, and resource-aware defaults. In a small, single-word prompt segment, detection and segmentation produced usable masks in over 90% of cases with an accuracy above 85% based on our criteria. On a high-end GPU, inpainting makes up 60 to 75% of total runtime under typical guidance and sampling settings, which highlights the need for careful tuning. The study offers implementation-guided advice on thresholds, mask tightness, and diffusion parameters, and details version pinning, artifact logging, and seed control to support replay. Our contribution is a transparent, reliable pattern for assembling modern vision and multimodal models behind a single prompt, with clear guardrails and operational practices that improve reliability in object replacement, scene augmentation, and removal.
- Abstract(参考訳): プロンプト駆動の画像解析は、ひとつの自然言語命令を複数のステップ(場所、セグメント、編集、記述)に変換する。
本稿では,オープンボキャブラリ検出,アクセラブルセグメンテーション,テキストコンディショニング,視覚言語記述をひとつのワークフローに統合した統合パイプラインの実践事例について述べる。
システムは単一のプロンプトから終端まで動作し、透過的なデバッグ(検出、マスク、オーバーレイ、編集済み画像、および前後合成など)のための中間的なアーティファクトを保持し、インタラクティブUIとスクリプト可能なCLIを通じて、一貫性があり、繰り返し実行できる実行のための機能を提供している。
我々は、しきい値調整、光形態によるマスク検査、リソース認識のデフォルトなど、脆さを低減する統合選択を強調した。
単一単語のプロンプトセグメントでは,検出とセグメンテーションにより90%以上の症例でマスクが生成され,その精度は基準値より85%以上であった。
ハイエンドGPUでは、一般的なガイダンスとサンプリング設定の下で、インペインティングはランタイム全体の60から75%を占めており、注意深いチューニングの必要性を強調している。
この研究は、しきい値、マスクの締まり、拡散パラメータに関する実装ガイダンスのアドバイスと、リプレイをサポートするためのバージョンピンニング、アーティファクトロギング、シードコントロールの詳細を提供する。
当社のコントリビューションは,現代的なビジョンとマルチモーダルモデルをひとつのプロンプトで組み立てるための,透過的で信頼性の高いパターンです。
関連論文リスト
- Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models [7.382887784956608]
本稿では,視覚言語とセグメンテーション基礎モデルを組み合わせたゼロショット自動セグメンテーションパイプラインを提案する。
適切な分解とテスト時間適応により、我々の完全自動パイプラインは、弱い確率で対話的な基礎モデルと競争的に機能する。
論文 参考訳(メタデータ) (2025-05-23T14:07:21Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。