論文の概要: Visual Consensus Prompting for Co-Salient Object Detection
- arxiv url: http://arxiv.org/abs/2504.14254v1
- Date: Sat, 19 Apr 2025 10:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 03:49:32.982958
- Title: Visual Consensus Prompting for Co-Salient Object Detection
- Title(参考訳): コサリアント物体検出のための視覚的コンセンサスプロンプト
- Authors: Jie Wang, Nana Yu, Zihao Zhang, Yahong Han,
- Abstract要約: 共分散オブジェクト検出タスクに対して,対話効率とパラメータ効率のよい簡潔なアーキテクチャを提案する。
パラメータ効率の良いプロンプトチューニングのパラダイムと,タスク固有のビジュアルコンセンサス・プロンプト(VCP)を定式化するためのプロンプトへのコンセンサスをシームレスに埋め込む
OurVCPは、最先端のフル微調整モデル13を上回り、新しい最先端の技術を達成している(最も困難なCoCAデータセット上でのF_mメトリクスが6.8%改善されている)。
- 参考スコア(独自算出の注目度): 26.820772908765083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing co-salient object detection (CoSOD) methods generally employ a three-stage architecture (i.e., encoding, consensus extraction & dispersion, and prediction) along with a typical full fine-tuning paradigm. Although they yield certain benefits, they exhibit two notable limitations: 1) This architecture relies on encoded features to facilitate consensus extraction, but the meticulously extracted consensus does not provide timely guidance to the encoding stage. 2) This paradigm involves globally updating all parameters of the model, which is parameter-inefficient and hinders the effective representation of knowledge within the foundation model for this task. Therefore, in this paper, we propose an interaction-effective and parameter-efficient concise architecture for the CoSOD task, addressing two key limitations. It introduces, for the first time, a parameter-efficient prompt tuning paradigm and seamlessly embeds consensus into the prompts to formulate task-specific Visual Consensus Prompts (VCP). Our VCP aims to induce the frozen foundation model to perform better on CoSOD tasks by formulating task-specific visual consensus prompts with minimized tunable parameters. Concretely, the primary insight of the purposeful Consensus Prompt Generator (CPG) is to enforce limited tunable parameters to focus on co-salient representations and generate consensus prompts. The formulated Consensus Prompt Disperser (CPD) leverages consensus prompts to form task-specific visual consensus prompts, thereby arousing the powerful potential of pre-trained models in addressing CoSOD tasks. Extensive experiments demonstrate that our concise VCP outperforms 13 cutting-edge full fine-tuning models, achieving the new state of the art (with 6.8% improvement in F_m metrics on the most challenging CoCA dataset). Source code has been available at https://github.com/WJ-CV/VCP.
- Abstract(参考訳): 既存のco-salient object detection (CoSOD) 法は一般的に3段階アーキテクチャ(エンコーディング、コンセンサス抽出、分散、予測)と典型的な完全な微調整パラダイムを用いる。
特定の利益をもたらすが、それらは2つの顕著な限界を示す。
1) このアーキテクチャは, コンセンサス抽出を容易にするために符号化機能に依存しているが, 厳密に抽出されたコンセンサスは, 符号化段階へのタイムリーなガイダンスを提供していない。
2) このパラダイムは,パラメータ非効率なモデルの全パラメータをグローバルに更新することで,基礎モデル内の知識の効果的な表現を阻害する。
そこで本稿では,CoSODタスクに対するインタラクション効率とパラメータ効率のよい簡潔なアーキテクチャを提案する。
パラメータ効率の良いプロンプトチューニングパラダイムを導入し、タスク固有のVisual Consensus Prompts(VCP)を定式化するプロンプトにシームレスにコンセンサスを組み込む。
我々のVCPは,タスク固有の視覚的コンセンサスプロンプトを最小限のチューナブルパラメータで定式化することにより,CoSODタスクの凍結基礎モデルを誘導することを目的としている。
具体的には、CPG(Consensus Prompt Generator)の主な洞察は、限定的な調整可能なパラメータを強制し、コサリアン表現にフォーカスし、コンセンサスプロンプトを生成することである。
定式化されたConsensus Prompt Disperser(CPD)は、コンセンサスプロンプトを利用してタスク固有の視覚コンセンサスプロンプトを形成する。
大規模な実験により、我々の簡潔なVCPは13の最先端の完全微調整モデルより優れており、新しい最先端技術(最も困難なCoCAデータセットでF_mメトリクスが6.8%改善されている)を実現しています。
ソースコードはhttps://github.com/WJ-CV/VCPで公開されている。
関連論文リスト
- UniQ: Unified Decoder with Task-specific Queries for Efficient Scene Graph Generation [9.275683880295874]
SGG(Scene Graph Generation)は、オブジェクトのエンティティを特定し、そのイメージ内でそれらの関係を推論することを目的としている。
1段階の手法は、学習可能なクエリの固定サイズのセットを統合し、リレーショナル三重項を共同で推論する。
一段階法の課題は、弱い絡み合いの問題に起因している。
タスク固有のクエリアーキテクチャを備えた統一デコーダUniQを紹介する。
論文 参考訳(メタデータ) (2025-01-10T03:38:16Z) - PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - CP-DETR: Concept Prompt Guide DETR Toward Stronger Universal Object Detection [6.017022924697519]
ほぼ全てのシナリオにおいて競合するCP-DETRと呼ばれる強力な普遍的検出基盤モデルを提案する。
具体的には、プロンプトと視覚間の情報相互作用を強化する効率的なプロンプト視覚ハイブリッドエンコーダを設計する。
テキストプロンプトに加えて、視覚プロンプトと最適化プロンプトという2つの実用的な概念プロンプト生成手法を設計した。
論文 参考訳(メタデータ) (2024-12-13T02:36:29Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration [63.112790050749695]
本稿では,行動情報と意味情報の両方をシームレスに統合する新しい生成推薦フレームワークであるEAGERを紹介する。
EAGERの有効性を4つの公開ベンチマークで検証し,既存手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-20T06:21:56Z) - Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。
私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文 参考訳(メタデータ) (2024-05-02T15:03:41Z) - PromptSum: Parameter-Efficient Controllable Abstractive Summarization [4.145362426026615]
本稿では,PTとマルチタスク目的と個別エンティティプロンプトを組み合わせた抽象的な要約手法であるPromptSumを紹介する。
我々のモデル競合ROUGEは、一般的な抽象的な要約ベンチマークと、エンティティによる強い制御性を組み合わせた結果である。
論文 参考訳(メタデータ) (2023-08-06T13:54:14Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Consistency-guided Prompt Learning for Vision-Language Models [23.4909421082857]
視覚言語モデルのための新しい微調整手法であるConsistency-Guided Prompt Learning (CoPrompt)を提案する。
提案手法は,下流タスクを数ショットで微調整した場合に,大規模な基礎モデルの一般化を改善する。
論文 参考訳(メタデータ) (2023-06-01T23:20:47Z) - Prompt-Matched Semantic Segmentation [96.99924127527002]
本研究の目的は、事前学習した基礎モデルを、画像意味セグメンテーションの下流の様々なタスクに効果的に適応する方法を検討することである。
本稿では,タスク指向のチューニングに適応的に視覚的プロンプトを生成するとともに,基礎モデルの本来の構造を維持できる新しい階層間プロンプトマッチングフレームワークを提案する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2つのステージ間で階層的に補間し、各タスクに対して適切なプロンプトを学習する。
論文 参考訳(メタデータ) (2022-08-22T09:12:53Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。