論文の概要: IKIWISI: An Interactive Visual Pattern Generator for Evaluating the Reliability of Vision-Language Models Without Ground Truth
- arxiv url: http://arxiv.org/abs/2505.22305v1
- Date: Wed, 28 May 2025 12:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.601043
- Title: IKIWISI: An Interactive Visual Pattern Generator for Evaluating the Reliability of Vision-Language Models Without Ground Truth
- Title(参考訳): IKIWISI:地中真実のない視覚言語モデルの信頼性評価のための対話型ビジュアルパターン生成装置
- Authors: Md Touhidul Islam, Imran Kabir, Md Alimoor Reza, Syed Masum Billah,
- Abstract要約: IKIWISI (I Know It When I See It) は、ビデオオブジェクト認識における視覚言語モデルを評価するための対話型視覚パターン生成装置である。
このツールは認知監査機構として機能し、人間と機械の認識のミスマッチを克服する。
- 参考スコア(独自算出の注目度): 4.734824660843964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present IKIWISI ("I Know It When I See It"), an interactive visual pattern generator for assessing vision-language models in video object recognition when ground truth is unavailable. IKIWISI transforms model outputs into a binary heatmap where green cells indicate object presence and red cells indicate object absence. This visualization leverages humans' innate pattern recognition abilities to evaluate model reliability. IKIWISI introduces "spy objects": adversarial instances users know are absent, to discern models hallucinating on nonexistent items. The tool functions as a cognitive audit mechanism, surfacing mismatches between human and machine perception by visualizing where models diverge from human understanding. Our study with 15 participants found that users considered IKIWISI easy to use, made assessments that correlated with objective metrics when available, and reached informed conclusions by examining only a small fraction of heatmap cells. This approach not only complements traditional evaluation methods through visual assessment of model behavior with custom object sets, but also reveals opportunities for improving alignment between human perception and machine understanding in vision-language systems.
- Abstract(参考訳): IKIWISI(I Know It When I See It)は,映像オブジェクト認識における視覚言語モデルの評価を行う対話型視覚パターン生成装置である。
IKIWISIはモデル出力を2値のヒートマップに変換し、グリーンセルはオブジェクトの存在を示し、レッドセルはオブジェクトが存在しないことを示す。
この可視化は、人間の本質的なパターン認識能力を活用してモデルの信頼性を評価する。
IKIWISI は "spy objects" を導入している: ユーザが知らないと知っている敵のインスタンスは、存在しないアイテムに幻覚を与えるモデルを識別する。
このツールは認知監査機構として機能し、モデルが人間の理解から分岐する場所を可視化することで、人間と機械の認識のミスマッチを克服する。
被験者15名を対象に,IKIWISIを使用しやすく評価し,使用時の客観的指標と相関する評価を行った。
このアプローチは、モデル行動とカスタムオブジェクトセットとの視覚的評価を通じて従来の評価手法を補完するだけでなく、視覚言語システムにおける人間の知覚と機械理解の整合性を改善する機会も明らかにする。
関連論文リスト
- Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models [27.806966289284528]
本稿では、スパースオートエンコーダ(SAE)を用いて、人間の解釈可能な視覚的特徴を発見する統一的なフレームワークを提案する。
そこで本研究では,SAEがモデル再学習を行なわずに,解釈可能な視覚特徴を確実に識別・操作できることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:32:41Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - MetaCOG: A Hierarchical Probabilistic Model for Learning Meta-Cognitive Visual Representations [2.271910267215261]
ニューラルオブジェクト検出器にアタッチして出力を監視し,その信頼性を決定する階層的確率モデルであるMetaCOGを提案する。
本稿では,MetaCOGがオブジェクト検出出力の誤差レベルに頑健であることを示す。
論文 参考訳(メタデータ) (2021-10-06T23:37:21Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - ViCE: Visual Counterfactual Explanations for Machine Learning Models [13.94542147252982]
本稿では,対話型視覚分析ツールViCEを提案する。
結果が視覚インターフェースに効果的に表示され、そのデータとモデルを探索するための対話的手法が提供される。
論文 参考訳(メタデータ) (2020-03-05T04:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。