論文の概要: AI-SAM: Automatic and Interactive Segment Anything Model
- arxiv url: http://arxiv.org/abs/2312.03119v1
- Date: Tue, 5 Dec 2023 20:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:52:50.195817
- Title: AI-SAM: Automatic and Interactive Segment Anything Model
- Title(参考訳): ai-sam: 自動およびインタラクティブセグメントのanyモデル
- Authors: Yimu Pan, Sitao Zhang, Alison D. Gernand, Jeffery A. Goldstein, and
James Z. Wang
- Abstract要約: 我々は、新しいパラダイムとその最初のモデル、Automatic and Interactive Segment Anything Model(AI-SAM)を紹介する。
実験により,AI-SAMによる自動設定の有効性を実証し,最先端の性能を実現した。
重要な点として、追加のユーザープロンプトを組み込む柔軟性を提供し、それによってパフォーマンスをさらに向上させる。
- 参考スコア(独自算出の注目度): 1.5526971729850854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is a core task in computer vision. Existing methods are
generally divided into two categories: automatic and interactive. Interactive
approaches, exemplified by the Segment Anything Model (SAM), have shown promise
as pre-trained models. However, current adaptation strategies for these models
tend to lean towards either automatic or interactive approaches. Interactive
methods depend on prompts user input to operate, while automatic ones bypass
the interactive promptability entirely. Addressing these limitations, we
introduce a novel paradigm and its first model: the Automatic and Interactive
Segment Anything Model (AI-SAM). In this paradigm, we conduct a comprehensive
analysis of prompt quality and introduce the pioneering Automatic and
Interactive Prompter (AI-Prompter) that automatically generates initial point
prompts while accepting additional user inputs. Our experimental results
demonstrate AI-SAM's effectiveness in the automatic setting, achieving
state-of-the-art performance. Significantly, it offers the flexibility to
incorporate additional user prompts, thereby further enhancing its performance.
The project page is available at https://github.com/ymp5078/AI-SAM.
- Abstract(参考訳): セマンティックセグメンテーションはコンピュータビジョンのコアタスクである。
既存の手法は一般に、自動とインタラクティブの2つのカテゴリに分けられる。
Segment Anything Model (SAM)によって実証された対話的アプローチは、事前訓練されたモデルとして約束を示している。
しかしながら、これらのモデルに対する現在の適応戦略は、自動的またはインタラクティブなアプローチに傾く傾向にある。
インタラクティブなメソッドはユーザ入力の操作に依存し、自動的なメソッドは対話的なプロンプトを完全にバイパスする。
これらの制限に対処し、新しいパラダイムとその最初のモデルであるautomatic and interactive segment anything model (ai-sam)を導入する。
このパラダイムでは,プロンプトの品質を包括的に分析し,新たなユーザ入力を受け入れながら初期点プロンプトを自動生成するAI-Prompter(Automatic and Interactive Prompter)を導入する。
実験により,AI-SAMによる自動設定の有効性を実証し,最先端の性能を実現した。
重要な点として、追加のユーザプロンプトを組み込む柔軟性があるため、パフォーマンスがさらに向上する。
プロジェクトページはhttps://github.com/ymp5078/ai-sam。
関連論文リスト
- AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z) - A Conversational Digital Assistant for Intelligent Process Automation [7.446834742371106]
我々は対話型デジタルアシスタントという形で対話型自動化を探求する。
ビジネスユーザは自然言語を使って、自動化ソリューションと対話し、カスタマイズできる。
提案手法がローン承認事業プロセスと旅行事前承認事業プロセスに与える影響を実証する。
論文 参考訳(メタデータ) (2020-07-27T00:38:13Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。