論文の概要: Focusing on what to decode and what to train: SOV Decoding with Specific Target Guided DeNoising and Vision Language Advisor
- arxiv url: http://arxiv.org/abs/2307.02291v3
- Date: Sun, 22 Dec 2024 06:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:21:38.791902
- Title: Focusing on what to decode and what to train: SOV Decoding with Specific Target Guided DeNoising and Vision Language Advisor
- Title(参考訳): デコードとトレーニングの方法に焦点をあてて - 特定のターゲットガイドと視覚言語アドバイザーによるSOVデコーディング
- Authors: Junwen Chen, Yingcheng Wang, Keiji Yanai,
- Abstract要約: 我々は、SOV-STG-VLAに3つの重要な要素、SOV-Object-Verb(SOV)デコーディング、特定ターゲットガイド(STG)デノナイズ、ビジョンランゲージ・アドバイザ(VLA)について紹介する。
我々のSOVデコーダは、オブジェクト検出と動詞認識を新しい相互作用領域表現で切り離す。
我々のVLAはSOV-STGを著しく改善し、最近のSOTAと比較して6分の1のトレーニングエポックでSOTA性能を達成する。
- 参考スコア(独自算出の注目度): 15.364628173661778
- License:
- Abstract: Recent transformer-based methods achieve notable gains in the Human-object Interaction Detection (HOID) task by leveraging the detection of DETR and the prior knowledge of Vision-Language Model (VLM). However, these methods suffer from extended training times and complex optimization due to the entanglement of object detection and HOI recognition during the decoding process. Especially, the query embeddings used to predict both labels and boxes suffer from ambiguous representations, and the gap between the prediction of HOI labels and verb labels is not considered. To address these challenges, we introduce SOV-STG-VLA with three key components: Subject-Object-Verb (SOV) decoding, Specific Target Guided (STG) denoising, and a Vision-Language Advisor (VLA). Our SOV decoders disentangle object detection and verb recognition with a novel interaction region representation. The STG denoising strategy learns label embeddings with ground-truth information to guide the training and inference. Our SOV-STG achieves a fast convergence speed and high accuracy and builds a foundation for the VLA to incorporate the prior knowledge of the VLM. We introduce a vision advisor decoder to fuse both the interaction region information and the VLM's vision knowledge and a Verb-HOI prediction bridge to promote interaction representation learning. Our VLA notably improves our SOV-STG and achieves SOTA performance with one-sixth of training epochs compared to recent SOTA. Code and models are available at https://github.com/cjw2021/SOV-STG-VLA
- Abstract(参考訳): 近年のトランスフォーマーに基づく手法は,DETRの検出とビジョン・ランゲージ・モデル(VLM)の先行知識を活用することで,人物体間相互作用検出(HOID)タスクにおいて顕著な利得を達成している。
しかし、これらの手法は、デコード処理中にオブジェクト検出とHOI認識の絡み合いにより、訓練時間と複雑な最適化に悩まされる。
特に、ラベルとボックスの両方を予測するために使用されるクエリ埋め込みは曖昧な表現に悩まされており、HOIラベルと動詞ラベルの差は考慮されていない。
これらの課題に対処するため、SOV-STG-VLAには、SOVデコーディング、STGデノナイズ、VLA(Vision-Language Advisor)という3つの重要な要素がある。
我々のSOVデコーダは、オブジェクト検出と動詞認識を新しい相互作用領域表現で切り離す。
STGデノベーション戦略は、トレーニングと推論を導くために、地味な情報でラベル埋め込みを学習する。
我々のSOV-STGは、高速な収束速度と高精度を実現し、VLMの以前の知識を取り入れるための基盤を構築する。
本稿では,インタラクション領域情報とVLMの視覚知識を融合させる視覚アドバイザデコーダと,インタラクション表現学習を促進するためのVerb-HOI予測ブリッジを導入する。
我々のVLAはSOV-STGを著しく改善し、最近のSOTAと比較して6分の1のトレーニングエポックでSOTA性能を達成する。
コードとモデルはhttps://github.com/cjw2021/SOV-STG-VLAで公開されている。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Few-Shot Object Detection with Sparse Context Transformers [37.106378859592965]
少ないショット検出は、少ないラベル付きデータでトレーニングされたモデルを使用してオブジェクトをローカライズするパターン認識における主要なタスクである。
本稿では,ソース領域におけるオブジェクトの知識を効果的に活用し,対象領域内の少数のトレーニング画像からスパースコンテキストを自動的に学習する新しいスパースコンテキスト変換器を提案する。
提案手法を2つの難易度オブジェクト検出ベンチマークで評価し,提案手法が関連する最先端技術と比較して競合性能を得ることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-02-14T17:10:01Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - LabelEnc: A New Intermediate Supervision Method for Object Detection [78.74368141062797]
本稿では,オブジェクト検出システムのトレーニングを促進するため,LabelEncという新たな中間監視手法を提案する。
鍵となるアイデアは、新しいラベル符号化機能を導入し、接地木ラベルを潜伏埋め込みにマッピングすることである。
実験の結果,COCOデータセット上での検出精度は,約2%向上した。
論文 参考訳(メタデータ) (2020-07-07T08:55:05Z) - Context-Transformer: Tackling Object Confusion for Few-Shot Detection [0.0]
本稿では,簡潔なディープトランスフレームワークにおけるコンテキスト変換器を提案する。
Context-Transformerは、ソースドメインオブジェクトの知識をガイダンスとして効果的に活用することができる。
これらのリレーショナルな手がかりを適応的に統合して、検出器の識別力を高めることができる。
論文 参考訳(メタデータ) (2020-03-16T16:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。