論文の概要: Allowing humans to interactively guide machines where to look does not always improve a human-AI team's classification accuracy
- arxiv url: http://arxiv.org/abs/2404.05238v1
- Date: Mon, 8 Apr 2024 07:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:13:56.770584
- Title: Allowing humans to interactively guide machines where to look does not always improve a human-AI team's classification accuracy
- Title(参考訳): 人間とAIチームの分類精度が常に向上しない機械を対話的に案内することを可能にする
- Authors: Giang Nguyen, Mohammad Reza Taesiri, Sunnie S. Y. Kim, Anh Nguyen,
- Abstract要約: 我々はCHM-Corr上にインタラクティブなインタフェースを構築し、CHM-Corrが提供する初期特徴属性マップを編集する。
ユーザスタディでは,静的な説明よりもCUB-200の鳥画像分類において,対話的アプローチはユーザの精度を向上しないことが示された。
- 参考スコア(独自算出の注目度): 11.585931986696028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Via thousands of papers in Explainable AI (XAI), attention maps \cite{vaswani2017attention} and feature attribution maps \cite{bansal2020sam} have been established as a common means for explaining the input features that are important to AI's decisions. It is an interesting but unexplored question whether allowing users to edit the importance scores of input features at test time would improve the human-AI team's accuracy on downstream tasks. In this paper, we address this question by taking CHM-Corr, a state-of-the-art, ante-hoc explanation method \cite{taesiri2022visual} that first predicts patch-wise correspondences between the input and the training-set images, and then uses them to make classification decisions. We build an interactive interface on top of CHM-Corr, enabling users to directly edit the initial feature attribution map provided by CHM-Corr. Via our CHM-Corr++ interface, users gain insights into if, when, and how the model changes its outputs, enhancing understanding beyond static explanations. Our user study with 18 machine learning researchers who performed $\sim$1,400 decisions shows that our interactive approach does not improve user accuracy on CUB-200 bird image classification over static explanations. This challenges the belief that interactivity inherently boosts XAI effectiveness~\cite{sokol2020one,sun2022exploring,shen2024towards,singh2024rethinking,mindlin2024beyond,lakkaraju2022ret hinking,cheng2019explaining,liu2021understanding} and raises needs for future research. Our work contributes to the field by open-sourcing an interactive tool for manipulating model attention, and it lays the groundwork for future research to enable effective human-AI interaction in computer vision. We release code and data on \href{https://anonymous.4open.science/r/CHMCorrPlusPlus/}{github}. Our interface are available \href{http://137.184.82.109:7080/}{here}.
- Abstract(参考訳): Explainable AI (XAI) における何千もの論文、注目マップ \cite{vaswani2017attention} と特徴属性マップ \cite{bansal2020sam} が、AIの決定に重要な入力機能を説明する共通の手段として確立されている。
ユーザがテスト時に入力機能の重要点を編集できるようにすることで、ダウンストリームタスクにおける人間-AIチームの精度が向上するかどうか、興味深いが、未調査の疑問である。
本稿では、入力とトレーニングセット画像のパッチワイド対応を最初に予測し、それらを分類決定に使用する、最先端のアンテホックな説明手法であるCHM-Corrを用いてこの問題に対処する。
我々はCHM-Corr上にインタラクティブなインタフェースを構築し、CHM-Corrが提供する初期特徴属性マップを直接編集することができる。
CHM-Corr++インターフェースを使用すると、ユーザは、モデルが出力を変更するかどうか、いつ、どのように変更するかについての洞察を得て、静的な説明以上の理解を深めます。
1,400ドルの意思決定を行った18人の機械学習研究者によるユーザスタディでは、静的な説明よりもCUB-200の鳥の画像分類において、対話的なアプローチはユーザの精度を向上しないことが示された。
このことは、相互作用がXAIの有効性を本質的に向上させる...\cite{sokol 2020one,sun2022 Explorloring,shen2024towards,singh2024rethinking,mindlin2024beyond,lakkaraju2022rethinking,cheng2019 explaining,liu2021understanding" という信念に挑戦し、将来の研究の必要性を高めている。
我々の研究は、モデル注意を操作するインタラクティブツールをオープンソース化することでこの分野に寄与し、コンピュータビジョンにおける人間とAIの効果的な相互作用を実現するための将来の研究の基盤となる。
We release code and data on \href{https://anonymous.4open.science/r/CHMCorrPlusPlus/}{github}.
インターフェースは \href{http://137.184.82.109:7080/}{here} で利用可能です。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Relevant Irrelevance: Generating Alterfactual Explanations for Image Classifiers [11.200613814162185]
本稿では,ブラックボックス画像分類器の再現的説明の実現可能性を示す。
ニューラルネットワークに基づくブラックボックスモデルにこのアイデアを適用することが可能であることを初めて示します。
論文 参考訳(メタデータ) (2024-05-08T11:03:22Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - First Place Solution to the CVPR'2023 AQTC Challenge: A
Function-Interaction Centric Approach with Spatiotemporal Visual-Language
Alignment [15.99008977852437]
AQTC(Affordance-Centric Question-driven Task Completion)は、ビデオから包括的かつ体系的な指示を持つユーザに取得するために提案されている。
既存の手法は、視覚的信号と言語的信号の整合性、および人間の物体間の重要な相互作用情報を無視してきた。
本稿では,安定かつ信頼性の高いマルチモーダルデータに寄与する大規模事前学習型視覚モデルとビデオ言語モデルを組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-06-23T09:02:25Z) - Visual correspondence-based explanations improve AI robustness and
human-AI team accuracy [7.969008943697552]
自己解釈可能な画像分類器の2つの新しいアーキテクチャを提案し、まず最初に説明し、次に予測する。
当社のモデルは、アウト・オブ・ディストリビューション(OOD)データセットにおいて、一貫して(1ポイントから4ポイント)改善しています。
ImageNetとCUBの画像分類タスクにおいて、補完的な人間-AIチームの精度(つまり、AI-aloneか人間-aloneよりも高い)を初めて達成できることが示される。
論文 参考訳(メタデータ) (2022-07-26T10:59:42Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Clicking Matters:Towards Interactive Human Parsing [60.35351491254932]
この研究は、対話的な環境下での人間の解析課題に取り組む最初の試みである。
ベンチマークLIPでは85% mIoU,PASCAL-Person-Partでは80% mIoU,Helenでは75% mIoU,クラス毎のクリック数は1.95,3.02,2.84,1.09であった。
論文 参考訳(メタデータ) (2021-11-11T11:47:53Z) - Towards Visual Explainable Active Learning for Zero-Shot Classification [8.491675843389514]
ゼロショット分類は、トレーニングクラスとテストクラスが分離されたときに適用可能な問題を解決するための有望なパラダイムである。
本稿では,セマンティックナビゲータ(semantic navigator)の設計と実装による視覚的説明可能なアクティブラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-08-15T12:39:43Z) - A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring
of Answer Transcriptions in Video Job Interviews [14.091472037847499]
質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。
我々は,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを利用する。
最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-22T12:27:45Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Visual Question Answering with Prior Class Semantics [50.845003775809836]
候補解のセマンティクスに関連する追加情報を利用する方法を示す。
セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。
提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-05-04T02:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。