論文の概要: ReCCur: A Recursive Corner-Case Curation Framework for Robust Vision-Language Understanding in Open and Edge Scenarios
- arxiv url: http://arxiv.org/abs/2601.03011v1
- Date: Tue, 06 Jan 2026 13:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.949994
- Title: ReCCur: A Recursive Corner-Case Curation Framework for Robust Vision-Language Understanding in Open and Edge Scenarios
- Title(参考訳): ReCCur: オープンシナリオとエッジシナリオにおけるロバストなビジョンランゲージ理解のための再帰的なコーナーケースキュレーションフレームワーク
- Authors: Yihan Wei, Shenghai Yuan, Tianchen Deng, Boyang Lou, Enwen Hu,
- Abstract要約: ノイズの多いWebイメージを監査可能なきめ細かいラベルに変換するフレームワークであるReCCurを提案する。
現実的なコーナーケースのシナリオでは、ReCCurはコンシューマグレードのGPUで動作し、純度と分離性を着実に改善する。
- 参考スコア(独自算出の注目度): 14.85600144047706
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Corner cases are rare or extreme scenarios that drive real-world failures, but they are difficult to curate at scale: web data are noisy, labels are brittle, and edge deployments preclude large retraining. We present ReCCur (Recursive Corner-Case Curation), a low-compute framework that converts noisy web imagery into auditable fine-grained labels via a multi-agent recursive pipeline. First, large-scale data acquisition and filtering expands a domain vocabulary with a vision-language model (VLM), crawls the web, and enforces tri-modal (image, description, keyword) consistency with light human spot checks to yield refined candidates. Next, mixture-of-experts knowledge distillation uses complementary encoders (e.g., CLIP, DINOv2, BEiT) for kNN voting with dual-confidence activation and uncertainty sampling, converging to a high-precision set. Finally, region-evidence VLM adversarial labeling pairs a proposer (multi-granularity regions and semantic cues) with a validator (global and local chained consistency) to produce explainable labels and close the loop. On realistic corner-case scenarios (e.g., flooded-car inspection), ReCCur runs on consumer-grade GPUs, steadily improves purity and separability, and requires minimal human supervision, providing a practical substrate for downstream training and evaluation under resource constraints. Code and dataset will be released.
- Abstract(参考訳): コーナーケースは現実の障害を引き起こす稀なシナリオや極端なシナリオだが、Webデータはノイズが多く、ラベルは不安定で、エッジデプロイメントは大規模なリトレーニングを妨げている。
ReCCur(Recursive Corner-Case Curation)は,ノイズの多いWebイメージをマルチエージェント再帰パイプラインを介して,監査可能なきめ細かなラベルに変換する低スループットのフレームワークである。
まず、大規模なデータ取得とフィルタリングにより、ドメイン語彙を視覚言語モデル(VLM)で拡張し、Webをクロールし、ライトヒューマンスポットチェックによるトリモーダル(画像、記述、キーワード)一貫性を適用して、洗練された候補を得る。
次に、専門知識の混合蒸留は相補的エンコーダ(例えば、CLIP、DINOv2、BEiT)を用いて、二重信頼の活性化と不確実性サンプリングを行い、高精度なセットに収束する。
最後に、VLM逆ラベリングは、提案者(多粒度領域とセマンティックキュー)とバリケータ(グローバルおよび局所連鎖整合性)をペアにして説明可能なラベルを生成し、ループを閉じる。
現実的なコーナーケースシナリオ(例えば、浸水車検査)では、ReCCurはコンシューマグレードのGPU上で動作し、純度と分離性を着実に改善し、人間の監督を最小限にし、リソース制約の下で下流トレーニングと評価のための実用的な基盤を提供する。
コードとデータセットがリリースされる。
関連論文リスト
- Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models [10.230967860299504]
本稿では,ゼロショット指向の検査フレームワークを提案し,視覚言語モデルとRetrieval-Augmented Generationを統合した。
技術ドキュメント、代表参照画像、ドメイン固有のガイドラインを含むマルチモーダル知識ベースを構築する。
各種損傷カテゴリをカバーする30のラベル付きブレード画像上での枠組みの評価を行った。
論文 参考訳(メタデータ) (2025-10-26T23:19:28Z) - EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels [85.78886153628663]
Open-Set Domain Generalizationは、ディープラーニングモデルが新しいドメインで目に見えないカテゴリを認識できるようにすることを目的としている。
ラベルノイズは、ソースドメインの知識を損なうことによって、オープンセットドメインの一般化を妨げる。
本稿では,ドメインギャップを埋めるために,Evidential Reliability-Aware Residual Flow Meta-Learning (EReLiFM)を提案する。
論文 参考訳(メタデータ) (2025-10-14T16:23:11Z) - Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry [5.1511135538176]
アクティブラーニング(AL)は、情報的なサンプルを優先順位付けすることでアノテーションのコストを削減することを約束するが、ラベルがうるさい場合やデータ分散がシフトした場合、その信頼性は低下する。
本稿では,深層ネットワークの創発的幾何学的規則性を活用し,信頼できない監視に対処するフレームワークである能動学習(NCAL-R)を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:50:31Z) - Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [65.31723739561151]
埋め込みは、エンコードされたセマンティクス内のきめ細かいエンティティやイベントを認識できないかもしれない。
本稿では,新たな評価データセットであるCapRetrievalを導入し,文節は画像キャプションであり,クエリはエンティティやイベントの概念を多種多様な形式でターゲットとするフレーズである。
我々は提案したデータ生成戦略でエンコーダを微調整し、小さな0.1Bエンコーダで最先端の7Bモデルを上回る性能を実現した。
論文 参考訳(メタデータ) (2025-06-10T09:00:33Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Progressive Learning with Cross-Window Consistency for Semi-Supervised
Semantic Segmentation [40.00721341952556]
クロスウィンドウ一貫性(CWC)は、ラベルのないデータから補助的な監視を包括的に抽出するのに役立つ。
我々は,大規模ラベルなしデータから弱い制約を抽出し,深層ネットワークを最適化する,新しいCWC駆動のプログレッシブラーニングフレームワークを提案する。
さらに,高一貫性で信頼性の高い擬似ラベルを提供する動的擬似ラベルメモリバンク(DPM)を提案する。
論文 参考訳(メタデータ) (2022-11-22T17:31:43Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。