論文の概要: Focusing on what to decode and what to train: Efficient Training with
HOI Split Decoders and Specific Target Guided DeNoising
- arxiv url: http://arxiv.org/abs/2307.02291v2
- Date: Mon, 4 Sep 2023 15:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:13:54.986276
- Title: Focusing on what to decode and what to train: Efficient Training with
HOI Split Decoders and Specific Target Guided DeNoising
- Title(参考訳): デコードとトレーニングに焦点をあてて:HOIスプリットデコーダと特定目標誘導デノージングによる効率的なトレーニング
- Authors: Junwen Chen, Yingcheng Wang, Keiji Yanai
- Abstract要約: 近年の1段変圧器を用いた手法は,DETRの検出を利用して,人物体間相互作用検出(HOI)タスクにおいて顕著な利得を達成している。
対象デコーダ,オブジェクトデコーダ,動詞デコーダで構成される新しいワンステージフレームワーク(SOV)を提案する。
本稿では,学習可能なオブジェクトと動詞ラベルの埋め込みを活用して学習指導を指導し,学習の収束を加速する,特定目標指導(STG)訓練戦略を提案する。
- 参考スコア(独自算出の注目度): 17.268302302974607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent one-stage transformer-based methods achieve notable gains in the
Human-object Interaction Detection (HOI) task by leveraging the detection of
DETR. However, the current methods redirect the detection target of the object
decoder, and the box target is not explicitly separated from the query
embeddings, which leads to long and hard training. Furthermore, matching the
predicted HOI instances with the ground-truth is more challenging than object
detection, simply adapting training strategies from the object detection makes
the training more difficult. To clear the ambiguity between human and object
detection and share the prediction burden, we propose a novel one-stage
framework (SOV), which consists of a subject decoder, an object decoder, and a
verb decoder. Moreover, we propose a novel Specific Target Guided (STG)
DeNoising training strategy, which leverages learnable object and verb label
embeddings to guide the training and accelerate the training convergence. In
addition, for the inference part, the label-specific information is directly
fed into the decoders by initializing the query embeddings from the learnable
label embeddings. Without additional features or prior language knowledge, our
method (SOV-STG) achieves higher accuracy than the state-of-the-art method in
one-third of training epochs. The code is available at this
https://github.com/cjw2021/SOV-STG.
- Abstract(参考訳): 最近の一段変圧器に基づく手法は, detrの検出を活用し, 人間-物体間インタラクション検出(hoi)タスクにおいて顕著な成果を得た。
しかし、現在のメソッドはオブジェクトデコーダの検出ターゲットをリダイレクトしており、ボックスターゲットはクエリの埋め込みから明示的に分離されていないため、長くて厳しいトレーニングにつながる。
さらに、予測されたHOIインスタンスと地平線とのマッチングは、オブジェクト検出よりも難しいため、単にオブジェクト検出からトレーニング戦略を適用するだけで、トレーニングがより難しくなる。
そこで本研究では,対象デコーダ,オブジェクトデコーダ,動詞デコーダから構成される新しいワンステージフレームワーク(SOV)を提案する。
さらに,学習可能なオブジェクトと動詞ラベルの埋め込みを活用して学習指導を指導し,学習の収束を加速する,特定目標指導(STG)訓練戦略を提案する。
また、推論部では、学習可能なラベル埋め込みからクエリ埋め込みを初期化することにより、ラベル固有情報をデコーダに直接供給する。
付加的な特徴や事前言語知識がなければ,本手法は訓練の3分の1における最先端手法よりも精度が高い。
コードは、このhttps://github.com/cjw2021/SOV-STGで入手できる。
関連論文リスト
- VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis [8.676256316312877]
対象物間相互作用(HOI)検出タスク(bfVLM-HOI)の目的関数形式としてVLMを明示的に活用する新しい手法を提案する。
VLMの言語理解を十分に活用するために言語的にHOI三重項を表現し、その局所化とオブジェクト中心の性質からCLIPモデルよりも適している。
提案手法の有効性を実証し,ベンチマーク上での最先端HOI検出精度を実現する。
論文 参考訳(メタデータ) (2024-11-27T04:13:23Z) - CL-HOI: Cross-Level Human-Object Interaction Distillation from Vision Large Language Models [10.62320998365966]
視覚言語モデル(VLLM)は、本質的には画像レベルでの相互作用を認識・推論できるが、計算的に重く、インスタンスレベルのHOI検出には設計されていない。
手動のアノテーションを必要とせずに,VLLMのイメージレベルの理解からインスタンスレベルのHOIを蒸留するクロスレベルHOI蒸留(CL-HOI)フレームワークを提案する。
本手法は,視覚情報から言語情報への変換を行う文脈蒸留と,対話認知ネットワーク(ICN)が空間的,視覚的,文脈的関係を推論する相互作用蒸留の2段階を含む。
論文 参考訳(メタデータ) (2024-10-21T05:51:51Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:59:59Z) - Vision-Language Adaptive Mutual Decoder for OOV-STR [39.35424739459689]
我々は、VLAMD(Vision Language Adaptive Mutual Decoder)というフレームワークを設計し、OoV(out-of-vocabulary)問題に部分的に対処する。
提案手法は,ECCV 2022 TiE Workshop における OOV-ST Challenge の単語認識タスクにおいて, IV+OOV と OOV の設定に対して 70.31% と 59.61% の単語精度を達成した。
論文 参考訳(メタデータ) (2022-09-02T07:32:22Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。