論文の概要: VISTA: A Visual Analytics Framework to Enhance Foundation Model-Generated Data Labels
- arxiv url: http://arxiv.org/abs/2507.09008v1
- Date: Fri, 11 Jul 2025 20:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.072143
- Title: VISTA: A Visual Analytics Framework to Enhance Foundation Model-Generated Data Labels
- Title(参考訳): VISTA: 基礎モデル生成データラベルを強化するビジュアル分析フレームワーク
- Authors: Xiwei Xuan, Xiaoqi Wang, Wenbin He, Jorge Piazentin Ono, Liang Gou, Kwan-Liu Ma, Liu Ren,
- Abstract要約: マルチモーダルモデルの性能を向上させるためにデータ品質を改善するビジュアル分析フレームワークであるVISTAを紹介する。
我々は、VISTAがマルチフェーズデータ検証戦略と人間の専門知識を統合する方法を示し、FM生成ラベル内の隠れた問題を特定し、理解し、修正することを可能にする。
- 参考スコア(独自算出の注目度): 30.699079182148054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The advances in multi-modal foundation models (FMs) (e.g., CLIP and LLaVA) have facilitated the auto-labeling of large-scale datasets, enhancing model performance in challenging downstream tasks such as open-vocabulary object detection and segmentation. However, the quality of FM-generated labels is less studied as existing approaches focus more on data quantity over quality. This is because validating large volumes of data without ground truth presents a considerable challenge in practice. Existing methods typically rely on limited metrics to identify problematic data, lacking a comprehensive perspective, or apply human validation to only a small data fraction, failing to address the full spectrum of potential issues. To overcome these challenges, we introduce VISTA, a visual analytics framework that improves data quality to enhance the performance of multi-modal models. Targeting the complex and demanding domain of open-vocabulary image segmentation, VISTA integrates multi-phased data validation strategies with human expertise, enabling humans to identify, understand, and correct hidden issues within FM-generated labels. Through detailed use cases on two benchmark datasets and expert reviews, we demonstrate VISTA's effectiveness from both quantitative and qualitative perspectives.
- Abstract(参考訳): FM(Multi-modal foundation model)の進歩(例:CLIP、LLaVA)により、大規模データセットの自動ラベル化が促進され、オープン語彙オブジェクト検出やセグメンテーションといった下流タスクにおけるモデルパフォーマンスが向上した。
しかし、FM生成ラベルの品質は、既存のアプローチが品質よりもデータ量に重点を置いているため、あまり研究されていない。
これは、根拠のない大量のデータを検証することが、実際にかなりの課題となるためである。
既存の手法は通常、問題のあるデータを特定するための限られたメトリクスに依存し、包括的な視点を欠いたり、小さなデータのみに人間の検証を適用するが、潜在的な問題の全スペクトルに対処できない。
これらの課題を克服するために、マルチモーダルモデルの性能を向上させるために、データ品質を改善するビジュアル分析フレームワークであるVISTAを紹介する。
オープン語彙画像セグメンテーションの複雑で要求の多い領域をターゲットに、VISTAは多段階のデータ検証戦略を人間の専門知識と統合し、FM生成ラベル内の隠れた問題を特定し、理解し、修正することを可能にする。
2つのベンチマークデータセットと専門家レビューの詳細なユースケースを通じて、VISTAの有効性を定量的および定性的な観点から実証する。
関連論文リスト
- Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。
近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。
本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文 参考訳(メタデータ) (2025-08-07T16:27:37Z) - Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation [25.283739839182147]
MLLMをChain-of-Thought(CoT)推論データでトレーニングすることで、特殊な視覚タスクにおけるモデル適応が容易になることを示す。
我々は,CoTデータに接地情報を注入することを目的とした,単純なブートストラップに基づくアプローチであるグラウンドド・チェーン・オブ・ワット(GCoT)を提案する。
様々な視覚形式をカバーする5つの視覚タスクに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-07-03T17:59:29Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Visual Identification of Problematic Bias in Large Label Spaces [5.841861400363261]
共通公平度メトリクスを現代的なモデルやデータセットに拡張する上での課題は、徹底的な真実ラベルの必要性である。
ドメインの専門家は、モデルやデータセット全体にわたってバイアスを抽出し、推論し、情報的な決定をする必要がある。
技術的・倫理的問題を考慮し,このような大規模ラベル空間の可視化設計ガイドラインを提案する。
論文 参考訳(メタデータ) (2022-01-17T12:51:08Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。