Fugu-MT 論文翻訳(概要): Benchmarking Human and Automated Prompting in the Segment Anything Model

論文の概要: Benchmarking Human and Automated Prompting in the Segment Anything Model

arxiv url: http://arxiv.org/abs/2410.22048v2
Date: Wed, 30 Oct 2024 18:51:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.865186
Title: Benchmarking Human and Automated Prompting in the Segment Anything Model
Title（参考訳）: セグメンションモデルにおける人間と自動プロンプトのベンチマーク
Authors: Jorge Quesada, Zoe Fowler, Mohammad Alotaibi, Mohit Prabhushankar, Ghassan AlRegib,
Abstract要約: 我々は最近リリースされた視覚的プロンプトデータセットであるPointPromptを利用して、人間のプロンプトと自動化されたプロンプトの違いを理解する。その結果, 自動戦略よりも, 人間の獲得したセグメンテーションスコアが約29%高いことがわかった。自動メソッドを使用する場合のパフォーマンスは、微調整アプローチによって最大68%向上する。
参考スコア（独自算出の注目度）: 12.499232172066353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The remarkable capabilities of the Segment Anything Model (SAM) for tackling image segmentation tasks in an intuitive and interactive manner has sparked interest in the design of effective visual prompts. Such interest has led to the creation of automated point prompt selection strategies, typically motivated from a feature extraction perspective. However, there is still very little understanding of how appropriate these automated visual prompting strategies are, particularly when compared to humans, across diverse image domains. Additionally, the performance benefits of including such automated visual prompting strategies within the finetuning process of SAM also remains unexplored, as does the effect of interpretable factors like distance between the prompt points on segmentation performance. To bridge these gaps, we leverage a recently released visual prompting dataset, PointPrompt, and introduce a number of benchmarking tasks that provide an array of opportunities to improve the understanding of the way human prompts differ from automated ones and what underlying factors make for effective visual prompts. We demonstrate that the resulting segmentation scores obtained by humans are approximately 29% higher than those given by automated strategies and identify potential features that are indicative of prompting performance with $R^2$ scores over 0.5. Additionally, we demonstrate that performance when using automated methods can be improved by up to 68% via a finetuning approach. Overall, our experiments not only showcase the existing gap between human prompts and automated methods, but also highlight potential avenues through which this gap can be leveraged to improve effective visual prompt design. Further details along with the dataset links and codes are available at https://github.com/olivesgatech/PointPrompt
Abstract（参考訳）: イメージセグメンテーションタスクを直感的でインタラクティブに処理するためのSAM(Segment Anything Model)の顕著な能力は、効果的な視覚的プロンプトの設計への関心を喚起した。このような関心が、機能抽出の観点から動機付けられた自動的なポイントプロンプト選択戦略の作成につながった。しかしながら、これらの自動視覚刺激戦略が、特に人間と比較して、多様な画像領域にわたって、どの程度適切であるかについては、まだほとんど理解されていない。さらに、SAMの微調整プロセスにこのような自動的な視覚的プロンプト戦略を含めることによるパフォーマンス上の利点は、プロンプトポイント間の距離などの解釈可能な要因がセグメンテーション性能に与える影響と同様に、未解明のままである。これらのギャップを埋めるために、最近リリースされたビジュアルプロンプトデータセットであるPointPromptを活用し、自動化されたプロンプトと人間のプロンプトの違いや、視覚的プロンプトを効果的に行う要因を理解するための一連の機会を提供するベンチマークタスクを導入しました。その結果, 自動戦略よりも約29%高いセグメンテーションスコアが得られ, R^2$スコアが0.5以上であることを示す。さらに、自動メソッドを使用する場合のパフォーマンスが、微調整アプローチにより最大68%向上することを示した。全体として、我々の実験は、人間のプロンプトと自動手法の既存のギャップを示すだけでなく、このギャップを効果的に視覚的プロンプト設計を改善するために活用できる可能性も強調している。データセットリンクとコードの詳細はhttps://github.com/olivesgatech/PointPromptで確認できる。

関連論文リスト

Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation [22.057386630831402]
大規模ビジョンランゲージモデルでは、タスク固有のトレーニングを使わずに、プロンプトによって多様なタスクを解決するように指示することができる。テキストまたは視覚的プロンプトによって導かれる最近のモデルのセグメンテーション性能を評価する。本稿では,テキストと視覚的プロンプトを組み合わせたトレーニング不要のベースラインであるPromptMatcherを提案する。
論文参考訳（メタデータ） (2025-03-25T13:36:59Z)
Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-26T18:38:38Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
Exploring the Zero-Shot Capabilities of Vision-Language Models for Improving Gaze Following [10.91834567383105]
人のポーズやオブジェクトとのインタラクションに関連する文脈的手がかりは、フォローする人を見つめるための貴重な情報を提供することができる。視覚言語モデル (VLM) を用いて, 視覚の視線改善のために, 広範囲の文脈的手がかりを抽出し, 視線改善を行う。画像全体と、対象人物の周りに描かれた楕円を併用することが、視覚的プロンプトの最も効果的な戦略である。
論文参考訳（メタデータ） (2024-06-06T09:41:39Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
PVPUFormer: Probabilistic Visual Prompt Unified Transformer for Interactive Image Segmentation [28.033243651780214]
本稿では,対話型画像セグメンテーションのための簡易で効果的な確率的ビジュアルプロンプト統一変換器(PVPUFormer)を提案する。本稿ではまず,プロンプト情報と非プロンプト情報の両方を探索することにより一次元ベクトルを生成する確率的プロンプト統一(PPuE)を提案する。次にPrompt-to-Pixel Contrastive (P$2$C)ロスを示し、プロンプトとピクセルの特徴を正確に整合させ、それらの間の表現ギャップを埋める。
論文参考訳（メタデータ） (2023-06-11T12:00:33Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
Explicit Visual Prompting for Universal Foreground Segmentations [55.51869354956533]
我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
論文参考訳（メタデータ） (2023-05-29T11:05:01Z)
Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。 EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。 EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文参考訳（メタデータ） (2023-03-20T06:01:53Z)
Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文参考訳（メタデータ） (2023-03-03T08:54:06Z)
Prompt Learning with Optimal Transport for Vision-Language Models [25.928455328563402]
複数の包括的プロンプトを学習し、内在的属性や外在的文脈などのカテゴリの特徴を多様に記述する。この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを提案する。内ループでは、視覚的特徴とプロンプトをシンクホーンアルゴリズムで調整するために最適な輸送距離を最適化する一方、外ループでは、教師付きデータからこの距離でプロンプトを学習する。
論文参考訳（メタデータ） (2022-10-03T22:21:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。