論文の概要: Self-Supervision based Task-Specific Image Collection Summarization
- arxiv url: http://arxiv.org/abs/2012.10657v4
- Date: Fri, 1 Jan 2021 08:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 15:49:03.182514
- Title: Self-Supervision based Task-Specific Image Collection Summarization
- Title(参考訳): 自己スーパービジョンに基づくタスク特化画像収集要約
- Authors: Anurag Singh, Deepak Kumar Sharma, Sudhir Kumar Sharma
- Abstract要約: 本稿では,意味情報と自己スーパービジョンを用いたタスク固有画像コーパス要約手法を提案する。
特徴生成ネットワークとして,分類に基づくWasserstein generation adversarial Network (WGAN) を用いる。
モデルは、セマンティック埋め込み空間におけるK平均クラスタリングを用いて、推論時に要約を生成する。
- 参考スコア(独自算出の注目度): 3.115375810642661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Successful applications of deep learning (DL) requires large amount of
annotated data. This often restricts the benefits of employing DL to businesses
and individuals with large budgets for data-collection and computation.
Summarization offers a possible solution by creating much smaller
representative datasets that can allow real-time deep learning and analysis of
big data and thus democratize use of DL. In the proposed work, our aim is to
explore a novel approach to task-specific image corpus summarization using
semantic information and self-supervision. Our method uses a
classification-based Wasserstein generative adversarial network (CLSWGAN) as a
feature generating network. The model also leverages rotational invariance as
self-supervision and classification on another task. All these objectives are
added on a features from resnet34 to make it discriminative and robust. The
model then generates a summary at inference time by using K-means clustering in
the semantic embedding space. Thus, another main advantage of this model is
that it does not need to be retrained each time to obtain summaries of
different lengths which is an issue with current end-to-end models. We also
test our model efficacy by means of rigorous experiments both qualitatively and
quantitatively.
- Abstract(参考訳): ディープラーニング(DL)の有効な応用には、大量の注釈付きデータが必要である。
これはしばしば、データ収集と計算のための大きな予算を持つ企業や個人にDLを採用する利点を制限する。
Summarizationは、ビッグデータのリアルタイムディープラーニングと分析を可能にし、DLの使用を民主化する、はるかに小さな代表データセットを作成することで、可能なソリューションを提供する。
本研究の目的は,意味情報と自己スーパービジョンを用いたタスク固有イメージコーパス要約への新しいアプローチを検討することである。
本手法では,特徴生成ネットワークとして分類ベースwassersteingenerative adversarial network(clswgan)を用いる。
このモデルはまた、回転不変性を別のタスクにおける自己スーパービジョンと分類として活用する。
これらすべての目的がresnet34の機能に付加され、差別的で堅牢になる。
モデルは、セマンティック埋め込み空間におけるK平均クラスタリングを用いて、推論時に要約を生成する。
したがって、このモデルの主な利点は、現在のエンドツーエンドモデルの問題である異なる長さの要約を得るために、毎回再訓練する必要がないことである。
また, 質的および定量的に厳密な実験を行い, モデルの有効性を検証した。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - LLM2Loss: Leveraging Language Models for Explainable Model Diagnostics [5.33024001730262]
我々は、失敗とバイアスのモデルパターンに関するセマンティックな洞察を提供するアプローチを提案する。
このような軽量モデルのアンサンブルを用いて,ブラックボックスモデルの性能に関する洞察を得られることを示す。
論文 参考訳(メタデータ) (2023-05-04T23:54:37Z) - Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。
提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。
また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文 参考訳(メタデータ) (2022-12-09T14:17:45Z) - Backbones-Review: Feature Extraction Networks for Deep Learning and Deep
Reinforcement Learning Approaches [3.255610188565679]
CNNは、大規模なデータサイズに取り組むだけでなく、特定のタスクのさまざまなシナリオをカバーすることができる。
多くのネットワークが提案され、あらゆるAIタスクでDLモデルに使用される有名なネットワークとなっている。
バックボーンは、他の多くのタスクでトレーニングされた既知のネットワークであり、その効果を実証する。
論文 参考訳(メタデータ) (2022-06-16T09:18:34Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Fuzzy Simplicial Networks: A Topology-Inspired Model to Improve Task
Generalization in Few-shot Learning [1.0062040918634414]
少ないショット学習アルゴリズムは、限られたデータで新しいタスクをうまく一般化するように設計されている。
本稿では,Fizzy Simplicial Networks (FSN) と呼ばれる,トポロジから構築したモデルを用いて,限られたデータから各クラスをより柔軟に表現する手法を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:01:09Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。