Fugu-MT 論文翻訳(概要): A Bag-of-Prototypes Representation for Dataset-Level Applications

論文の概要: A Bag-of-Prototypes Representation for Dataset-Level Applications

arxiv url: http://arxiv.org/abs/2303.13251v1
Date: Thu, 23 Mar 2023 13:33:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 14:18:52.735646
Title: A Bag-of-Prototypes Representation for Dataset-Level Applications
Title（参考訳）: データセットレベルアプリケーションのためのBag-of-Prototypes表現
Authors: Weijie Tu, Weijian Deng, Tom Gedeon and Liang Zheng
Abstract要約: 本研究では,データセットレベルの2つのタスクに対するデータセットベクトル化について検討する。本稿では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,Bop-of-prototypes(BoP)データセット表現を提案する。 BoPは、2つのデータセットレベルのタスクに対する一連のベンチマークにおいて、既存の表現に対する優位性を一貫して示している。
参考スコア（独自算出の注目度）: 24.629132557336312
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work investigates dataset vectorization for two dataset-level tasks: assessing training set suitability and test set difficulty. The former measures how suitable a training set is for a target domain, while the latter studies how challenging a test set is for a learned model. Central to the two tasks is measuring the underlying relationship between datasets. This needs a desirable dataset vectorization scheme, which should preserve as much discriminative dataset information as possible so that the distance between the resulting dataset vectors can reflect dataset-to-dataset similarity. To this end, we propose a bag-of-prototypes (BoP) dataset representation that extends the image-level bag consisting of patch descriptors to dataset-level bag consisting of semantic prototypes. Specifically, we develop a codebook consisting of K prototypes clustered from a reference dataset. Given a dataset to be encoded, we quantize each of its image features to a certain prototype in the codebook and obtain a K-dimensional histogram. Without assuming access to dataset labels, the BoP representation provides a rich characterization of the dataset semantic distribution. Furthermore, BoP representations cooperate well with Jensen-Shannon divergence for measuring dataset-to-dataset similarity. Although very simple, BoP consistently shows its advantage over existing representations on a series of benchmarks for two dataset-level tasks.
Abstract（参考訳）: 本研究は,2つのデータセットレベルのタスクに対するデータセットベクトル化について検討する。前者はトレーニングセットが対象ドメインにどの程度適しているかを測定し、後者はテストセットが学習モデルにどの程度適しているかを研究する。 2つのタスクの中心は、データセット間の基盤となる関係を測定することである。これにより、データセットベクトル間の距離がデータセットとデータセットの類似性を反映できるように、可能な限り多くの識別データセット情報を保存できる望ましいデータセットベクトル化スキームが必要である。そこで本研究では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,プロトタイプのバッグ(BoP)データセット表現を提案する。具体的には、参照データセットからクラスタ化されたKプロトタイプからなるコードブックを開発する。符号化されるデータセットが与えられると、その画像の特徴をコードブック内のあるプロトタイプに定量化し、k次元のヒストグラムを得る。データセットラベルへのアクセスを前提とせずに、BoP表現はデータセットの意味分布の豊富な特徴を提供する。さらに、データセット間の類似度を測定するため、BoP表現はJensen-Shannon分散とよく協力する。非常に単純ではあるが、BoPは2つのデータセットレベルのタスクに対する一連のベンチマークにおける既存の表現に対して、常に優位性を示している。

関連論文リスト

Swift Cross-Dataset Pruning: Enhancing Fine-Tuning Efficiency in Natural Language Understanding [2.379669478864599]
現在の微調整のためのクロスデータセットプルーニング技術は、しばしば計算に高価なサンプルランキングプロセスに依存している。我々は,TF-IDF埋め込みと幾何中央値を用いたSwift Cross-Dataset Pruning (SCDP)を提案する。 6つの多様なデータセットに対する実験結果から,様々なタスクやスケールにまたがる手法の有効性が示された。
論文参考訳（メタデータ） (2025-01-05T03:52:04Z)
A Unified Manifold Similarity Measure Enhancing Few-Shot, Transfer, and Reinforcement Learning in Manifold-Distributed Datasets [1.2289361708127877]
2つの多様体構造間の類似性を決定する新しい方法を提案する。この手法は、ターゲットとソースのデータセットが、伝達学習に適した類似した多様体構造を持つかどうかを判断するために用いられる。次に,限定ラベル付き多様体分散データセットを分類するための数ショット学習法を提案する。
論文参考訳（メタデータ） (2024-08-12T01:25:00Z)
Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文参考訳（メタデータ） (2024-07-20T17:14:31Z)
Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。 DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。 10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-20T01:34:13Z)
Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文参考訳（メタデータ） (2023-02-16T13:41:19Z)
Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文参考訳（メタデータ） (2022-06-07T17:59:44Z)
Label-Free Model Evaluation with Semi-Structured Dataset Representations [78.54590197704088]
ラベルなしモデル評価(AutoEval)は、ラベルなしテストセットでモデル精度を推定する。画像ラベルがない場合、データセット表現に基づいて、回帰を伴うAutoEvalのモデル性能を推定する。本稿では,AutoEvalのリッチな情報を含む回帰学習のための半構造化データセット表現を提案する。
論文参考訳（メタデータ） (2021-12-01T18:15:58Z)
Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文参考訳（メタデータ） (2021-08-04T14:51:37Z)
Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。私たちのアプローチは手動の分類学の調整を必要としません。
論文参考訳（メタデータ） (2021-02-25T18:55:58Z)
Self-supervised Robust Object Detectors from Partially Labelled Datasets [3.1669406516464007]
データセットをマージすることで、複数のオブジェクトをトレーニングする代わりに、1つの統合オブジェクト検出器をトレーニングすることができます。本稿では,統合されたデータセットのラベルの欠落を克服するためのトレーニングフレームワークを提案する。 VOC2012 と VOC2007 を用いて,Yolo の誤り率 $approx!48%$ で,シミュレーションした統合データセット上で Yolo をトレーニングするためのフレームワークの評価を行った。
論文参考訳（メタデータ） (2020-05-23T15:18:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。