論文の概要: Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles
- arxiv url: http://arxiv.org/abs/2603.17111v1
- Date: Tue, 17 Mar 2026 20:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.382482
- Title: Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles
- Title(参考訳): 隠れクローン:視覚・言語モデルで家族バイアスを抽出・固定する
- Authors: Zacharie Bugaud,
- Abstract要約: 家族関係の誤りは効果的なアンサンブル次元を2.5-3.6の独立有権者に還元する。
QualRCCVは、キャリブレーション、家族の質、家族サイズによるモデルの重み付けを行う、トレーニング不要の方法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensembling Vision-Language Models (VLMs) from different providers maximizes benchmark accuracy, yet models from the same architectural family share correlated errors that standard voting ignores. We study this structure across 17 VLMs from 8 families on VQAv2, TextVQA, and GQA. Family-correlated errors reduce effective ensemble dimensionality to 2.5-3.6 independent voters and create a Misleading tier (1.5-6.5% of questions) where correlated majority errors destroy accuracy to 0% despite the best model being correct. We propose three family-aware methods. Hierarchical Family Voting (HFV) aggregates within families before voting across them, recovering +18-26 pp on the Misleading tier. QualRCCV, a training-free method weighting models by calibration, family quality, and inverse family size, is the first to beat calibrated voting on all three benchmarks (p<0.05). Learned Candidate Scoring (LCS) trains a cross-validated classifier to re-rank candidate answers using support breadth, family diversity, and model quality, achieving the largest gains: +0.68% VQAv2, +0.61% TextVQA, +2.45% GQA -- all significant -- and is the only learned method that never degrades any benchmark. On VQAv2 test-standard (EvalAI), LCS reaches 87.83% with 12 models, confirming generalization.
- Abstract(参考訳): 異なるプロバイダからのビジョンランゲージモデル(VLM)の組み立ては、ベンチマークの精度を最大化するが、同じアーキテクチャファミリーのモデルは、標準投票が無視する相関エラーを共有する。
本研究は,VQAv2,TextVQA,GQAの8つのファミリーから17のVLMにまたがる構造について検討する。
家族関連エラーは、有効アンサンブル次元を2.5-3.6の独立有権者に減らし、相関する多数決エラーが正しいモデルにもかかわらず精度を0%に低下させるミスリーディング層(1.5-6.5%の質問)を作成する。
3つの家族認識手法を提案する。
階層的家族投票(HFV)は、投票前に家族内で集計され、ミスリーディング層で+18-26ppを回復する。
QualRCCVは、キャリブレーション、家族の質、家族サイズによるモデルの重み付けを行うトレーニングフリーの方法であり、3つのベンチマーク(p<0.05)でキャリブレーションされた投票を初めて上回った。
Learned Candidate Scoring (LCS)は、支持幅、家族の多様性、モデル品質を使って、候補の答えを再ランクするクロスバリデーション分類器をトレーニングし、最大のゲインを達成している: +0.68% VQAv2, +0.61% TextVQA, +2.45% GQA -- すべて重要な -- である。
VQAv2テスト標準 (EvalAI) では、LCSは12のモデルで87.83%に達し、一般化を確認している。
関連論文リスト
- BrainBench: Exposing the Commonsense Reasoning Gap in Large Language Models [4.264192013842096]
大きな言語モデル(LLM)は、標準ベンチマークで印象的なスコアを得るが、人間が数秒で正しく答えられるような質問を日常的に失敗する。
BrainBenchは、慎重に設計された20のカテゴリにまたがる100のブレインティーザー質問のベンチマークです。
論文 参考訳(メタデータ) (2026-03-16T02:50:43Z) - VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images [0.0]
本稿では、視覚言語モデルが写真で何が見えていないのかを判断できるかどうかを判定するベンチマークであるVBを提案する。
アイテムは、最小限の画像編集を最小限のテキスト編集で横断する2x2デザインを使用して、100のファミリーに編成される。
我々は,自信認識精度(CAA),最小編集フリップ率(MEFR),信頼ランク選択予測(SelRank),第2次視点推論のモデルを評価する。
論文 参考訳(メタデータ) (2026-03-03T23:03:11Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - Decomposing LLM Self-Correction: The Accuracy-Correction Paradox and Error Depth Hypothesis [6.901585308625979]
自己補正を3つのサブ機能に分解する。
本研究は,モデル能力と自己改善に関する線形仮定に挑戦する。
論文 参考訳(メタデータ) (2025-12-24T21:51:24Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Orthographic Constraint Satisfaction and Human Difficulty Alignment in Large Language Models [2.3991974633684854]
大規模な言語モデルは、制御されたテキスト生成中に厳密な正書法制約を満たす必要がある。
人格レベルの制約満足度を必要とする58の単語パズルに対して、3つのモデルファミリーにまたがる28の構成を評価した。
論文 参考訳(メタデータ) (2025-11-26T06:12:33Z) - Prune-Then-Plan: Step-Level Calibration for Stable Frontier Exploration in Embodied Question Answering [52.69447404069251]
大規模視覚言語モデル(VLM)は、オープン語彙推論のための強力なセマンティック先行情報を提供することにより、EQAエージェントの改良を行った。
ステップレベルキャリブレーションによる探索を安定化するフレームワークPrune-Then-Planを提案する。
論文 参考訳(メタデータ) (2025-11-24T22:50:50Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。