論文の概要: ReME: A Data-Centric Framework for Training-Free Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2506.21233v2
- Date: Fri, 27 Jun 2025 12:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 13:06:01.359402
- Title: ReME: A Data-Centric Framework for Training-Free Open-Vocabulary Segmentation
- Title(参考訳): ReME: トレーニング不要なオープン語彙セグメンテーションのためのデータ中心フレームワーク
- Authors: Xiwei Xuan, Ziquan Deng, Kwan-Liu Ma,
- Abstract要約: トレーニングフリーなオープン語彙セマンティックセマンティックセマンティクス(OVS)は、任意のテキストカテゴリのセットが与えられた画像を、コストのかかるモデル微調整なしで分割することを目的としている。
本稿では,データパイプラインを組み込んだデータ品質指向フレームワークを提案する。
本手法は既存のトレーニング不要なOVSアプローチよりも優れており,トレーニングなしでOVSを前進させるためのデータ中心設計の重要性を強調している。
- 参考スコア(独自算出の注目度): 18.666044903856363
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training-free open-vocabulary semantic segmentation (OVS) aims to segment images given a set of arbitrary textual categories without costly model fine-tuning. Existing solutions often explore attention mechanisms of pre-trained models, such as CLIP, or generate synthetic data and design complex retrieval processes to perform OVS. However, their performance is limited by the capability of reliant models or the suboptimal quality of reference sets. In this work, we investigate the largely overlooked data quality problem for this challenging dense scene understanding task, and identify that a high-quality reference set can significantly benefit training-free OVS. With this observation, we introduce a data-quality-oriented framework, comprising a data pipeline to construct a reference set with well-paired segment-text embeddings and a simple similarity-based retrieval to unveil the essential effect of data. Remarkably, extensive evaluations on ten benchmark datasets demonstrate that our method outperforms all existing training-free OVS approaches, highlighting the importance of data-centric design for advancing OVS without training. Our code is available at https://github.com/xiweix/ReME .
- Abstract(参考訳): トレーニングフリーなオープン語彙セマンティックセマンティックセマンティクス(OVS)は、任意のテキストカテゴリのセットが与えられた画像を、コストのかかるモデル微調整なしで分割することを目的としている。
既存のソリューションは、CLIPのような事前訓練されたモデルの注意機構を探索したり、合成データを生成し、複雑な検索プロセスを設計してOVSを実行する。
しかし、それらの性能は、信頼されたモデルや参照セットの最適下の品質によって制限される。
本研究では,この難易度の高いシーン理解タスクにおいて,概ね見過ごされたデータ品質問題について検討し,高品質な参照セットがトレーニング不要なOVSに有益であることを示す。
そこで本研究では,データパイプラインを組み込んだデータ品質指向のフレームワークを導入し,セグメントテキストを組み込んだ参照セットの構築と,データの本質的効果を明らかにするシンプルな類似性に基づく検索を提案する。
注目すべきは、10のベンチマークデータセットに対する広範な評価によって、私たちのメソッドが既存のトレーニング不要のOVSアプローチよりも優れており、トレーニングなしでOVSを前進させる上でのデータ中心設計の重要性を強調しています。
私たちのコードはhttps://github.com/xiweix/ReMEで利用可能です。
関連論文リスト
- Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs [1.6332728502735252]
大規模言語モデル(LLM)とレトリーバル拡張生成(RAG)システムは、産業アプリケーションにますます多くデプロイされている。
その信頼性は、幻覚検出の課題によって妨げられている。
本稿では,データアノテーションのボトルネックを,トレーニングデータ要件の低減の可能性を検討することによって解決する。
論文 参考訳(メタデータ) (2025-05-29T09:50:56Z) - Enhancing Multimodal In-Context Learning for Image Classification through Coreset Optimization [45.48642232138223]
In-context Learning (ICL)により、LVLM(Large Vision-Language Models)はパラメータを更新せずに新しいタスクに適応できる。
本稿では,キーベースコアセット最適化(KeCO)を提案する。
KeCOは画像分類タスクのICL性能を効果的に向上し、平均20%以上の改善を実現している。
論文 参考訳(メタデータ) (2025-04-19T06:26:23Z) - Enhancing Generalization via Sharpness-Aware Trajectory Matching for Dataset Condensation [37.77454972709646]
学習した合成データセットの一般化能力を高めるシャープネス認識軌道マッチング(SATM)を導入する。
我々の手法は数学的に十分サポートされており、制御可能な計算オーバーヘッドとともに実装が容易である。
論文 参考訳(メタデータ) (2025-02-03T22:30:06Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。