論文の概要: Instance-Level Generation for Representation Learning
- arxiv url: http://arxiv.org/abs/2510.09171v1
- Date: Fri, 10 Oct 2025 09:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.51082
- Title: Instance-Level Generation for Representation Learning
- Title(参考訳): 表現学習のためのインスタンスレベル生成
- Authors: Yankun Wu, Zakaria Laskar, Giorgos Kordopatis-Zilos, Noa Garcia, Giorgos Tolias,
- Abstract要約: インスタンスレベルの認識(ILR)は、幅広いカテゴリではなく個々のオブジェクトを特定することに焦点を当てている。
本稿では,複数のドメインから多様なオブジェクトインスタンスを合成的に生成する新しいアプローチを提案する。
本手法は,実画像に頼らずにILR固有の課題に最初に対処する手法である。
- 参考スコア(独自算出の注目度): 20.97048848139392
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instance-level recognition (ILR) focuses on identifying individual objects rather than broad categories, offering the highest granularity in image classification. However, this fine-grained nature makes creating large-scale annotated datasets challenging, limiting ILR's real-world applicability across domains. To overcome this, we introduce a novel approach that synthetically generates diverse object instances from multiple domains under varied conditions and backgrounds, forming a large-scale training set. Unlike prior work on automatic data synthesis, our method is the first to address ILR-specific challenges without relying on any real images. Fine-tuning foundation vision models on the generated data significantly improves retrieval performance across seven ILR benchmarks spanning multiple domains. Our approach offers a new, efficient, and effective alternative to extensive data collection and curation, introducing a new ILR paradigm where the only input is the names of the target domains, unlocking a wide range of real-world applications.
- Abstract(参考訳): インスタンスレベルの認識(ILR)は、幅広いカテゴリではなく個々のオブジェクトを識別することに焦点を当て、画像分類において最高の粒度を提供する。
しかし、このきめ細かい性質は、大規模な注釈付きデータセットの作成を困難にし、ILRのドメイン間の実世界の適用性を制限している。
そこで本研究では,異なる条件と背景条件下で複数のドメインから多様なオブジェクトインスタンスを合成的に生成し,大規模トレーニングセットを形成する手法を提案する。
従来の自動データ合成法とは異なり、本手法は実際の画像に頼らずにIRR固有の課題に対処する最初の方法である。
複数の領域にまたがる7つのIRRベンチマークにおける検索性能を大幅に向上させる。
我々のアプローチは、広範囲なデータ収集とキュレーションに対して、新しい、効率的で効果的な代替手段を提供し、ターゲットドメインの名前のみを入力として、幅広い現実世界のアプリケーションをアンロックする新しいIRRパラダイムを導入しています。
関連論文リスト
- Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation [66.72195610471624]
Cross-Domain Sequential Recommendationは、異なるドメイン間でユーザのシーケンシャルな好みをマイニングし、転送することを目的としている。
本稿では,ユーザ検索手法を探索し,CDSRの性能向上を目的とした URLLM という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T09:19:54Z) - UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset Generation [6.3823202275924125]
本稿では,対象領域によらずデータセットを生成する普遍的領域一般化に対する新しいアプローチを提案する。
提案手法は, PLM よりも桁違いの小さいパラメータ集合を用いて, 各領域にまたがる一般化性を実現する。
論文 参考訳(メタデータ) (2024-05-02T05:46:13Z) - Few-shot Object Localization [37.347898735345574]
本稿では,Few-Shot Object Localization (FSOL) という新しいタスクを定義する。
限られたサンプルで正確な位置決めを実現することを目的としている。
本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。
実験の結果,FSOLタスクにおけるアプローチの大幅な性能向上が示され,さらなる研究のための効率的なベンチマークが確立された。
論文 参考訳(メタデータ) (2024-03-19T05:50:48Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Multi-Domain Adversarial Feature Generalization for Person
Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。
複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。
また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文 参考訳(メタデータ) (2020-11-25T08:03:15Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。