論文の概要: Beyond the Seen: Bounded Distribution Estimation for Open-Vocabulary Learning
- arxiv url: http://arxiv.org/abs/2510.04770v1
- Date: Mon, 06 Oct 2025 12:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.86388
- Title: Beyond the Seen: Bounded Distribution Estimation for Open-Vocabulary Learning
- Title(参考訳): セエンを超えて:オープン語彙学習のための境界分布推定
- Authors: Xiaomeng Fan, Yuchuan Mao, Zhi Gao, Yuwei Wu, Jin Chen, Yunde Jia,
- Abstract要約: オープン環境における分布を推定するための未知のクラスデータを生成する新しいオープン語彙学習法を提案する。
提案手法はベースラインアプローチを最大14%向上させ,その有効性と優位性を強調した。
- 参考スコア(独自算出の注目度): 37.081621145668656
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Open-vocabulary learning requires modeling the data distribution in open environments, which consists of both seen-class and unseen-class data. Existing methods estimate the distribution in open environments using seen-class data, where the absence of unseen classes makes the estimation error inherently unidentifiable. Intuitively, learning beyond the seen classes is crucial for distribution estimation to bound the estimation error. We theoretically demonstrate that the distribution can be effectively estimated by generating unseen-class data, through which the estimation error is upper-bounded. Building on this theoretical insight, we propose a novel open-vocabulary learning method, which generates unseen-class data for estimating the distribution in open environments. The method consists of a class-domain-wise data generation pipeline and a distribution alignment algorithm. The data generation pipeline generates unseen-class data under the guidance of a hierarchical semantic tree and domain information inferred from the seen-class data, facilitating accurate distribution estimation. With the generated data, the distribution alignment algorithm estimates and maximizes the posterior probability to enhance generalization in open-vocabulary learning. Extensive experiments on $11$ datasets demonstrate that our method outperforms baseline approaches by up to $14\%$, highlighting its effectiveness and superiority.
- Abstract(参考訳): オープンボキャブラリ学習では、見知らぬクラスと見えないクラスの両方のデータからなるオープン環境でのデータ分散をモデル化する必要がある。
既存の手法では、未確認のクラスが存在しないことにより、推定誤差が本質的に識別不能となるような、参照クラスのデータを用いて、オープン環境における分布を推定する。
直感的には、クラス以外の学習は、推定誤差をバウンドする分布推定に不可欠である。
理論的には、推定誤差が上界となる未確認のクラスデータを生成することにより、この分布を効果的に推定できることを実証する。
この理論的な知見に基づいて、オープン環境における分布を推定するための未知のクラスデータを生成する新しいオープン語彙学習法を提案する。
本手法は,クラスドメイン単位のデータ生成パイプラインと分散アライメントアルゴリズムから構成される。
データ生成パイプラインは、階層的なセマンティックツリーと、その目に見えるクラスデータから推測されるドメイン情報とを指導して、目に見えないクラスデータを生成し、正確な分布推定を容易にする。
生成されたデータを用いて、分布アライメントアルゴリズムは、後続確率を推定し、最大化し、開語彙学習における一般化を強化する。
11ドルデータセットに対する大規模な実験は、我々の手法がベースラインアプローチを最大14セントまで上回り、その効果と優越性を強調していることを示している。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - DRoP: Distributionally Robust Data Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Open-Sampling: Exploring Out-of-Distribution data for Re-balancing
Long-tailed datasets [24.551465814633325]
深層ニューラルネットワークは通常、トレーニングデータセットが極端なクラス不均衡に苦しむ場合、パフォーマンスが良くない。
近年の研究では、半教師付き方式でアウト・オブ・ディストリビューションデータによる直接トレーニングが一般化性能を損なうことが報告されている。
そこで我々は,オープンセットノイズラベルを用いて学習データセットのクラス前のバランスを再調整する,オープンサンプリングと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-17T14:29:52Z) - Fair Densities via Boosting the Sufficient Statistics of Exponential
Families [72.34223801798422]
フェアネスのためのデータ前処理にブースティングアルゴリズムを導入する。
私たちのアプローチは、最小限の公平性を確保しながら、より良いデータフィッティングへとシフトします。
実世界のデータに結果の質を示す実験結果が提示される。
論文 参考訳(メタデータ) (2020-12-01T00:49:17Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。