論文の概要: Focusing on what to decode and what to train: SOV Decoding with Specific Target Guided DeNoising and Vision Language Advisor
- arxiv url: http://arxiv.org/abs/2307.02291v3
- Date: Sun, 22 Dec 2024 06:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:21:38.791902
- Title: Focusing on what to decode and what to train: SOV Decoding with Specific Target Guided DeNoising and Vision Language Advisor
- Title(参考訳): デコードとトレーニングの方法に焦点をあてて - 特定のターゲットガイドと視覚言語アドバイザーによるSOVデコーディング
- Authors: Junwen Chen, Yingcheng Wang, Keiji Yanai,
- Abstract要約: 我々は、SOV-STG-VLAに3つの重要な要素、SOV-Object-Verb(SOV)デコーディング、特定ターゲットガイド(STG)デノナイズ、ビジョンランゲージ・アドバイザ(VLA)について紹介する。
我々のSOVデコーダは、オブジェクト検出と動詞認識を新しい相互作用領域表現で切り離す。
我々のVLAはSOV-STGを著しく改善し、最近のSOTAと比較して6分の1のトレーニングエポックでSOTA性能を達成する。
- 参考スコア(独自算出の注目度): 15.364628173661778
- License:
- Abstract: Recent transformer-based methods achieve notable gains in the Human-object Interaction Detection (HOID) task by leveraging the detection of DETR and the prior knowledge of Vision-Language Model (VLM). However, these methods suffer from extended training times and complex optimization due to the entanglement of object detection and HOI recognition during the decoding process. Especially, the query embeddings used to predict both labels and boxes suffer from ambiguous representations, and the gap between the prediction of HOI labels and verb labels is not considered. To address these challenges, we introduce SOV-STG-VLA with three key components: Subject-Object-Verb (SOV) decoding, Specific Target Guided (STG) denoising, and a Vision-Language Advisor (VLA). Our SOV decoders disentangle object detection and verb recognition with a novel interaction region representation. The STG denoising strategy learns label embeddings with ground-truth information to guide the training and inference. Our SOV-STG achieves a fast convergence speed and high accuracy and builds a foundation for the VLA to incorporate the prior knowledge of the VLM. We introduce a vision advisor decoder to fuse both the interaction region information and the VLM's vision knowledge and a Verb-HOI prediction bridge to promote interaction representation learning. Our VLA notably improves our SOV-STG and achieves SOTA performance with one-sixth of training epochs compared to recent SOTA. Code and models are available at https://github.com/cjw2021/SOV-STG-VLA
- Abstract(参考訳): 近年のトランスフォーマーに基づく手法は,DETRの検出とビジョン・ランゲージ・モデル(VLM)の先行知識を活用することで,人物体間相互作用検出(HOID)タスクにおいて顕著な利得を達成している。
しかし、これらの手法は、デコード処理中にオブジェクト検出とHOI認識の絡み合いにより、訓練時間と複雑な最適化に悩まされる。
特に、ラベルとボックスの両方を予測するために使用されるクエリ埋め込みは曖昧な表現に悩まされており、HOIラベルと動詞ラベルの差は考慮されていない。
これらの課題に対処するため、SOV-STG-VLAには、SOVデコーディング、STGデノナイズ、VLA(Vision-Language Advisor)という3つの重要な要素がある。
我々のSOVデコーダは、オブジェクト検出と動詞認識を新しい相互作用領域表現で切り離す。
STGデノベーション戦略は、トレーニングと推論を導くために、地味な情報でラベル埋め込みを学習する。
我々のSOV-STGは、高速な収束速度と高精度を実現し、VLMの以前の知識を取り入れるための基盤を構築する。
本稿では,インタラクション領域情報とVLMの視覚知識を融合させる視覚アドバイザデコーダと,インタラクション表現学習を促進するためのVerb-HOI予測ブリッジを導入する。
我々のVLAはSOV-STGを著しく改善し、最近のSOTAと比較して6分の1のトレーニングエポックでSOTA性能を達成する。
コードとモデルはhttps://github.com/cjw2021/SOV-STG-VLAで公開されている。
関連論文リスト
- VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis [8.676256316312877]
対象物間相互作用(HOI)検出タスク(bfVLM-HOI)の目的関数形式としてVLMを明示的に活用する新しい手法を提案する。
VLMの言語理解を十分に活用するために言語的にHOI三重項を表現し、その局所化とオブジェクト中心の性質からCLIPモデルよりも適している。
提案手法の有効性を実証し,ベンチマーク上での最先端HOI検出精度を実現する。
論文 参考訳(メタデータ) (2024-11-27T04:13:23Z) - CL-HOI: Cross-Level Human-Object Interaction Distillation from Vision Large Language Models [10.62320998365966]
視覚言語モデル(VLLM)は、本質的には画像レベルでの相互作用を認識・推論できるが、計算的に重く、インスタンスレベルのHOI検出には設計されていない。
手動のアノテーションを必要とせずに,VLLMのイメージレベルの理解からインスタンスレベルのHOIを蒸留するクロスレベルHOI蒸留(CL-HOI)フレームワークを提案する。
本手法は,視覚情報から言語情報への変換を行う文脈蒸留と,対話認知ネットワーク(ICN)が空間的,視覚的,文脈的関係を推論する相互作用蒸留の2段階を含む。
論文 参考訳(メタデータ) (2024-10-21T05:51:51Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:59:59Z) - Vision-Language Adaptive Mutual Decoder for OOV-STR [39.35424739459689]
我々は、VLAMD(Vision Language Adaptive Mutual Decoder)というフレームワークを設計し、OoV(out-of-vocabulary)問題に部分的に対処する。
提案手法は,ECCV 2022 TiE Workshop における OOV-ST Challenge の単語認識タスクにおいて, IV+OOV と OOV の設定に対して 70.31% と 59.61% の単語精度を達成した。
論文 参考訳(メタデータ) (2022-09-02T07:32:22Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。