論文の概要: ACTRESS: Active Retraining for Semi-supervised Visual Grounding
- arxiv url: http://arxiv.org/abs/2407.03251v1
- Date: Wed, 3 Jul 2024 16:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:27:21.121679
- Title: ACTRESS: Active Retraining for Semi-supervised Visual Grounding
- Title(参考訳): ACTRESS:半教師付き視覚接地のためのアクティブリトレーニング
- Authors: Weitai Kang, Mengxue Qu, Yunchao Wei, Yan Yan,
- Abstract要約: 前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 52.08834188447851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-Supervised Visual Grounding (SSVG) is a new challenge for its sparse labeled data with the need for multimodel understanding. A previous study, RefTeacher, makes the first attempt to tackle this task by adopting the teacher-student framework to provide pseudo confidence supervision and attention-based supervision. However, this approach is incompatible with current state-of-the-art visual grounding models, which follow the Transformer-based pipeline. These pipelines directly regress results without region proposals or foreground binary classification, rendering them unsuitable for fitting in RefTeacher due to the absence of confidence scores. Furthermore, the geometric difference in teacher and student inputs, stemming from different data augmentations, induces natural misalignment in attention-based constraints. To establish a compatible SSVG framework, our paper proposes the ACTive REtraining approach for Semi-Supervised Visual Grounding, abbreviated as ACTRESS. Initially, the model is enhanced by incorporating an additional quantized detection head to expose its detection confidence. Building upon this, ACTRESS consists of an active sampling strategy and a selective retraining strategy. The active sampling strategy iteratively selects high-quality pseudo labels by evaluating three crucial aspects: Faithfulness, Robustness, and Confidence, optimizing the utilization of unlabeled data. The selective retraining strategy retrains the model with periodic re-initialization of specific parameters, facilitating the model's escape from local minima. Extensive experiments demonstrates our superior performance on widely-used benchmark datasets.
- Abstract(参考訳): Semi-Supervised Visual Grounding (SSVG)は、マルチモデル理解を必要とするスパースラベル付きデータの新たな課題である。
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
しかしこのアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
これらのパイプラインは、リージョンの提案やフォアグラウンドのバイナリ分類なしに結果を直接後退させ、信頼スコアがないためにRefTeacherに適合するのに適さない。
さらに、教師と学生の入力の幾何学的差異は、異なるデータ拡張から生じるものであり、注意に基づく制約の中で自然のミスアライメントを引き起こす。
本稿では,SSVGフレームワークの互換性を確立するために,アクティブ・リトレーニング手法を提案する。
当初は、検出信頼性を公開するために、追加の量子化検出ヘッドを組み込むことで、モデルが強化される。
これに基づいて、ACTRESSはアクティブサンプリング戦略と選択的再訓練戦略から構成される。
アクティブサンプリング戦略は、信頼度、ロバスト性、信頼の3つの重要な側面を評価し、ラベルなしデータの利用を最適化することで、高品質な擬似ラベルを反復的に選択する。
選択的再訓練戦略は、特定のパラメータの周期的再初期化によってモデルを再訓練し、モデルが局所的なミニマから逃れるのを容易にする。
大規模な実験は、広く使用されているベンチマークデータセットにおいて、私たちの優れたパフォーマンスを示しています。
関連論文リスト
- Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - Training-based Model Refinement and Representation Disagreement for
Semi-Supervised Object Detection [8.096382537967637]
半教師付き物体検出(SSOD)は、既存の物体検出器の性能と一般化を改善することを目的としている。
近年のSSOD法は, 古典的指数移動平均 (EMA) 戦略を用いて, モデル改良の不十分さが問題となっている。
本稿では,新しいトレーニングベースモデル改良段階と,シンプルで効果的な表現不一致(RD)戦略を提案する。
論文 参考訳(メタデータ) (2023-07-25T18:26:22Z) - Hierarchical Supervision and Shuffle Data Augmentation for 3D
Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。
自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。
本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T02:09:32Z) - Exploring Active 3D Object Detection from a Generalization Perspective [58.597942380989245]
不確実性に基づくアクティブな学習ポリシーは、ポイントクラウドの情報性とボックスレベルのアノテーションコストの間のトレードオフのバランスを取れません。
冗長な3次元境界ボックスラベルの点群を階層的にフィルタリングするtextscCrbを提案する。
実験により,提案手法が既存のアクティブラーニング戦略より優れていることが示された。
論文 参考訳(メタデータ) (2023-01-23T02:43:03Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Robust Dialogue State Tracking with Weak Supervision and Sparse Data [2.580163308334609]
対話状態追跡(DST)を新しいデータに一般化することは、トレーニング中の豊富なきめ細かい監督に依存しているため困難である。
サンプルの間隔、分布シフト、新しい概念やトピックの発生は、しばしば推論中に深刻なパフォーマンス劣化を引き起こす。
そこで本研究では,詳細な手動スパンラベルを必要とせず,抽出DSTモデルを構築するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T16:58:12Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。