論文の概要: Evian: Towards Explainable Visual Instruction-tuning Data Auditing
- arxiv url: http://arxiv.org/abs/2604.20544v1
- Date: Wed, 22 Apr 2026 13:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.139601
- Title: Evian: Towards Explainable Visual Instruction-tuning Data Auditing
- Title(参考訳): Evian: 説明可能なビジュアルインストラクションチューニングデータ監査を目指して
- Authors: Zimu Jia, Mingjie Xu, Andrew Estornell, Jiaheng Wei,
- Abstract要約: 本稿では,モデル応答を構成的認知要素に分解する「分解的評価」パラダイムを提案する。
このパラダイムを、画像テキスト一貫性、論理コヒーレンス、ファクチュアル正確性の軸に沿ってこれらのコンポーネントを評価する自動化フレームワークであるEVIANを介してインスタンス化する。
- 参考スコア(独自算出の注目度): 14.93566912726999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficacy of Large Vision-Language Models (LVLMs) is critically dependent on the quality of their training data, requiring a precise balance between visual fidelity and instruction-following capability. Existing datasets, however, are plagued by inconsistent quality, and current data filtering methods rely on coarse-grained scores that lack the granularity to identify nuanced semantic flaws like logical fallacies or factual errors. This creates a fundamental bottleneck in developing more reliable models. To address this, we make three core contributions. First, we construct a large-scale, 300K-sample benchmark by systematically injecting diverse, subtle defects to provide a challenging testbed for data auditing. Second, we introduce a novel "Decomposition-then-Evaluation" paradigm that breaks model responses into constituent cognitive components: visual description, subjective inference, and factual claim, enabling targeted analysis. Third, we instantiate this paradigm via EVIAN (Explainable Visual Instruction-tuning Data AuditiNg), an automated framework that evaluates these components along the orthogonal axes of Image-Text Consistency, Logical Coherence, and Factual Accuracy. Our empirical findings challenge the prevailing scale-centric paradigm: a model fine-tuned on a compact, high-quality subset curated by EVIAN consistently surpassed models trained on orders-of-magnitude larger datasets. We also reveal that dividing complex auditing into verifiable subtasks enables robust curation, and that Logical Coherence is the most critical factor in data quality evaluation.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の有効性は、トレーニングデータの品質に極めて依存しており、視覚的忠実度と指示追従能力の正確なバランスを必要とする。
しかし、既存のデータセットは一貫性のない品質に悩まされており、現在のデータフィルタリング手法は、論理的誤りや事実的誤りのような微妙な意味的欠陥を特定するための粒度に欠ける粗いスコアに依存している。
これにより、より信頼性の高いモデルを開発する上で、根本的なボトルネックが生まれる。
これを解決するために、私たちは3つのコアコントリビューションを行います。
まず,多様で微妙な欠陥を系統的に注入することで,大規模で300Kサンプルのベンチマークを構築し,データ監査に挑戦するテストベッドを提供する。
第二に、モデル応答を視覚的記述、主観的推論、事実的クレームといった構成的認知要素に分解し、対象分析を可能にする新しい「分解的評価」パラダイムを導入する。
第三に、このパラダイムをEVIAN (Explainable Visual Instruction-tuning Data AuditiNg) を介してインスタンス化する。
EVIANがキュレートしたコンパクトで高品質なサブセットに微調整されたモデルは、マグニチュードの大きなデータセットに基づいてトレーニングされたモデルを一貫して上回っている。
また、検証可能なサブタスクに複雑な監査を分割することで、堅牢なキュレーションが可能であり、ロジカルコヒーレンスがデータ品質評価において最も重要な要素であることも明らかにした。
関連論文リスト
- Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models [15.709482146201283]
現代のビジョン・ファンデーション・モデル(Vision Foundation Models)の凍結した特徴に基づいて訓練された単純な線形分類器は、新しい最先端技術を確立している。
この基準線は標準ベンチマーク上の特別な検出器と一致し、また、ウィジェット内のデータセット上では決定的に優れていることを示す。
我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
論文 参考訳(メタデータ) (2026-02-02T07:20:02Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - TSVC:Tripartite Learning with Semantic Variation Consistency for Robust Image-Text Retrieval [11.874979105806243]
クロスモーダル検索は意味的関連性を通して異なるモダリティの下でデータをマップする。
既存のアプローチでは、データペアが適切に整合しており、広く存在するアノテーションノイズを無視していると暗黙的に仮定している。
本稿では,画像テキスト検索のための意味変化一貫性(TSVC)を用いた三部学習を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:05:08Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。