論文の概要: Focusing on what to decode and what to train: Efficient Training with
HOI Split Decoders and Specific Target Guided DeNoising
- arxiv url: http://arxiv.org/abs/2307.02291v1
- Date: Wed, 5 Jul 2023 13:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:35:42.052079
- Title: Focusing on what to decode and what to train: Efficient Training with
HOI Split Decoders and Specific Target Guided DeNoising
- Title(参考訳): デコードとトレーニングに焦点をあてて:HOIスプリットデコーダと特定目標誘導デノージングによる効率的なトレーニング
- Authors: Junwen Chen, Yingcheng Wang, Keiji Yanai
- Abstract要約: 近年の1段変圧器を用いた手法は,DETRの検出を利用して,人物体間相互作用検出(HOI)タスクにおいて顕著な利得を達成している。
対象デコーダ,オブジェクトデコーダ,動詞デコーダで構成される新しいワンステージフレームワーク(SOV)を提案する。
本稿では,学習可能なオブジェクトと動詞ラベルの埋め込みを活用して学習指導を指導し,学習の収束を加速する,新たな特定目標誘導(STG)デノベーション戦略を提案する。
- 参考スコア(独自算出の注目度): 19.517906187070615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent one-stage transformer-based methods achieve notable gains in the
Human-object Interaction Detection (HOI) task by leveraging the detection of
DETR. However, the current methods redirect the detection target of the object
decoder, and the box target is not explicitly separated from the query
embeddings, which leads to long and hard training. Furthermore, matching the
predicted HOI instances with the ground-truth is more challenging than object
detection, simply adapting training strategies from the object detection makes
the training more difficult. To clear the ambiguity between human and object
detection and share the prediction burden, we propose a novel one-stage
framework (SOV), which consists of a subject decoder, an object decoder, and a
verb decoder. Moreover, we propose a novel Specific Target Guided (STG)
DeNoising strategy, which leverages learnable object and verb label embeddings
to guide the training and accelerates the training convergence. In addition,
for the inference part, the label-specific information is directly fed into the
decoders by initializing the query embeddings from the learnable label
embeddings. Without additional features or prior language knowledge, our method
(SOV-STG) achieves higher accuracy than the state-of-the-art method in
one-third of training epochs. The code is available at
\url{https://github.com/cjw2021/SOV-STG}.
- Abstract(参考訳): 最近の一段変圧器に基づく手法は, detrの検出を活用し, 人間-物体間インタラクション検出(hoi)タスクにおいて顕著な成果を得た。
しかし、現在のメソッドはオブジェクトデコーダの検出ターゲットをリダイレクトしており、ボックスターゲットはクエリの埋め込みから明示的に分離されていないため、長くて厳しいトレーニングにつながる。
さらに、予測されたHOIインスタンスと地平線とのマッチングは、オブジェクト検出よりも難しいため、単にオブジェクト検出からトレーニング戦略を適用するだけで、トレーニングがより難しくなる。
そこで本研究では,対象デコーダ,オブジェクトデコーダ,動詞デコーダから構成される新しいワンステージフレームワーク(SOV)を提案する。
さらに,学習可能なオブジェクトと動詞ラベルの埋め込みを活用してトレーニングをガイドし,学習の収束を加速する,新たな特定目標誘導(STG)デノベーション戦略を提案する。
また、推論部では、学習可能なラベル埋め込みからクエリ埋め込みを初期化することにより、ラベル固有情報をデコーダに直接供給する。
付加的な特徴や事前言語知識がなければ,本手法は訓練の3分の1における最先端手法よりも精度が高い。
コードは \url{https://github.com/cjw2021/sov-stg} で入手できる。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Few-Shot Object Detection with Sparse Context Transformers [37.106378859592965]
少ないショット検出は、少ないラベル付きデータでトレーニングされたモデルを使用してオブジェクトをローカライズするパターン認識における主要なタスクである。
本稿では,ソース領域におけるオブジェクトの知識を効果的に活用し,対象領域内の少数のトレーニング画像からスパースコンテキストを自動的に学習する新しいスパースコンテキスト変換器を提案する。
提案手法を2つの難易度オブジェクト検出ベンチマークで評価し,提案手法が関連する最先端技術と比較して競合性能を得ることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-02-14T17:10:01Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - LabelEnc: A New Intermediate Supervision Method for Object Detection [78.74368141062797]
本稿では,オブジェクト検出システムのトレーニングを促進するため,LabelEncという新たな中間監視手法を提案する。
鍵となるアイデアは、新しいラベル符号化機能を導入し、接地木ラベルを潜伏埋め込みにマッピングすることである。
実験の結果,COCOデータセット上での検出精度は,約2%向上した。
論文 参考訳(メタデータ) (2020-07-07T08:55:05Z) - Context-Transformer: Tackling Object Confusion for Few-Shot Detection [0.0]
本稿では,簡潔なディープトランスフレームワークにおけるコンテキスト変換器を提案する。
Context-Transformerは、ソースドメインオブジェクトの知識をガイダンスとして効果的に活用することができる。
これらのリレーショナルな手がかりを適応的に統合して、検出器の識別力を高めることができる。
論文 参考訳(メタデータ) (2020-03-16T16:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。