Fugu-MT 論文翻訳(概要): Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection

論文の概要: Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection

arxiv url: http://arxiv.org/abs/2403.01680v1
Date: Mon, 4 Mar 2024 02:25:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 20:15:20.734323
Title: Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection
Title（参考訳）: 視覚言語物体検出のためのゼロショット一般化インクリメンタル学習
Authors: Jieren Deng, Haojian Zhang, Kun Ding, Jianhua Hu, Xingxuan Zhang, Yunkuan Wang
Abstract要約: Incrmental Vision-Language Object Detection (IVLOD) は、訓練済みのVLODMを様々な専門分野に段階的に適応させる新しい学習タスクである。新たな手法であるZiRaを提案する。ZiRaは、新たな推論コストやメモリ使用量の増加を伴わずに、IVLODに対処するためのゼロ干渉損失とreパラメタライゼーション技術を導入する。 COCOとODinW-13データセットの実験により、ZiRaは新しいタスクに継続的に適応しながら、VLODMのゼロショット一般化能力を効果的に保護していることが示された。
参考スコア（独自算出の注目度）: 12.066922664696442
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents Incremental Vision-Language Object Detection (IVLOD), a novel learning task designed to incrementally adapt pre-trained Vision-Language Object Detection Models (VLODMs) to various specialized domains, while simultaneously preserving their zero-shot generalization capabilities for the generalized domain. To address this new challenge, we present the Zero-interference Reparameterizable Adaptation (ZiRa), a novel method that introduces Zero-interference Loss and reparameterization techniques to tackle IVLOD without incurring additional inference costs or a significant increase in memory usage. Comprehensive experiments on COCO and ODinW-13 datasets demonstrate that ZiRa effectively safeguards the zero-shot generalization ability of VLODMs while continuously adapting to new tasks. Specifically, after training on ODinW-13 datasets, ZiRa exhibits superior performance compared to CL-DETR and iDETR, boosting zero-shot generalizability by substantial 13.91 and 8.71 AP, respectively.
Abstract（参考訳）: 本稿では,VLODM(Incrmental Vision-Language Object Detection)を各種専門領域に段階的に適応させるとともに,一般領域のゼロショット一般化機能を同時に維持する新しい学習課題であるIVLODを提案する。この新たな課題に対処するために、ゼロ干渉再パラメータ化適応(ZiRa)を提案する。これは、追加の推論コストやメモリ使用量の増加を伴わずに、IVLODに取り組むゼロ干渉損失と再パラメータ化技術を導入する新しい手法である。 COCOとODinW-13データセットに関する包括的な実験により、ZiRaは新しいタスクに継続的に適応しながら、VLODMのゼロショット一般化能力を効果的に保護していることが示された。具体的には、ODinW-13データセットのトレーニングの後、ZiRaはCL-DETRとiDETRよりも優れた性能を示し、それぞれ13.91 APと8.71 APのゼロショット一般化性を高めた。

関連論文リスト

Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文参考訳（メタデータ） (2026-01-30T10:54:51Z)
RADSeg: Unleashing Parameter and Compute Efficient Zero-Shot Open-Vocabulary Segmentation Using Agglomerative Models [6.977949425464]
我々は、見過ごされた集合的視覚基盤モデルRADIOを活用し、mIoU、レイテンシ、パラメータ効率の3つの主要な軸に沿ったゼロショットOVSSを同時に改善する。 RADSegは,3.95倍高速かつ2.5倍少ないパラメータを用いて,ベースViTクラスの6～30%のmIoU改善を実現した。
論文参考訳（メタデータ） (2025-11-24T21:15:01Z)
VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文参考訳（メタデータ） (2025-06-11T18:05:33Z)
Beyond CLIP Generalization: Against Forward&Backward Forgetting Adapter for Continual Learning of Vision-Language Models [19.71113926850385]
AFA法は、既存の最先端アプローチを著しく上回る。転送可能性という点では、CLIPの本質的にゼロショットのパフォーマンスを上回っている。
論文参考訳（メタデータ） (2025-05-12T15:56:23Z)
Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文参考訳（メタデータ） (2025-03-23T13:18:17Z)
Retaining and Enhancing Pre-trained Knowledge in Vision-Language Models with Prompt Ensembling [5.6987175375687995]
グループワイド・プロンプト・アンサンブル(GPE)と呼ばれる新しいプロンプト・アンサンブル学習手法を提案する。提案手法は,データ分散シフトに対するロバスト性を改善しつつ,新たなドメイン知識を取り入れたCLIPのゼロショット機能の向上を目的としている。当社のアプローチは,ゼロショット能力を保護しながら,CLIPの適応性を最適化するため,マスク付き注意によるグループ化の促進,モデルの表現を損なうことなく,新たなドメインインサイトをシームレスに統合するための補助的なプロンプトの導入,オリジナルと新しい知識を効果的にマージするアンサンブル学習戦略の3つの戦略に基づいている。
論文参考訳（メタデータ） (2024-12-10T00:40:31Z)
Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。 PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文参考訳（メタデータ） (2024-11-22T05:41:00Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
Efficient and Versatile Robust Fine-Tuning of Zero-shot Models [34.27380518351181]
本稿では、下流タスクにゼロショットモデルを微調整する新しい手法であるRobust Adapter(R-Adapter)を紹介する。本手法は, 軽量モジュールを事前学習モデルに統合し, OODロバスト性を高め, 保存コストを大幅に削減するために, 新たな自己アンサンブル技術を用いる。実験により,R-Adapterは,CLIPエンコーダのパラメータの13%をチューニングし,タスクのさまざまなセットで最先端のパフォーマンスを実現することを確認した。
論文参考訳（メタデータ） (2024-08-11T11:37:43Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-04T15:22:54Z)
Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distillation [14.225723195634941]
より強力なモデルからの教師なし知識の蒸留に基づく学習を促す新しい手法を提案する。我々はKDPL(Knowledge Distillation Prompt Learning)と呼ぶアプローチを,既存の即興学習技術に統合することができる。
論文参考訳（メタデータ） (2024-07-03T12:24:40Z)
APALU: A Trainable, Adaptive Activation Function for Deep Learning Networks [0.0]
APALU(Adaptive piecewise approximated activation linear unit)を新たに導入する。実験では、様々なタスクに広く使用されるアクティベーション関数よりも大幅に改善されている。 APALUは、限られたデータセットで手話認識タスクにおいて100%精度を達成する。
論文参考訳（メタデータ） (2024-02-13T06:18:42Z)
YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文参考訳（メタデータ） (2024-01-30T18:59:38Z)
Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文参考訳（メタデータ） (2023-07-28T16:03:28Z)
Learning Task-relevant Representations for Generalization via Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2022-05-20T14:52:03Z)
Entity-Conditioned Question Generation for Robust Attention Distribution in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文参考訳（メタデータ） (2022-04-24T22:36:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。