論文の概要: Allowing humans to interactively guide machines where to look does not always improve human-AI team's classification accuracy
- arxiv url: http://arxiv.org/abs/2404.05238v2
- Date: Sun, 14 Apr 2024 12:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:41:10.319277
- Title: Allowing humans to interactively guide machines where to look does not always improve human-AI team's classification accuracy
- Title(参考訳): 人間の視線が常に人間のAIチームの分類精度を向上しない機械を対話的に誘導することを可能にする
- Authors: Giang Nguyen, Mohammad Reza Taesiri, Sunnie S. Y. Kim, Anh Nguyen,
- Abstract要約: CHM-Corr++はCHM-Corrのインタラクティブなインタフェースであり、CHM-Corrが提供する特徴属性マップを編集することができる。
静的な説明よりも,CUB-200の鳥画像分類において,対話的アプローチがユーザ精度を向上させるという統計的意義は見つからない。
- 参考スコア(独自算出の注目度): 11.585931986696028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Via thousands of papers in Explainable AI (XAI), attention maps \cite{vaswani2017attention} and feature attribution maps \cite{bansal2020sam} have been established as a common means for finding how important each input feature is to an AI's decisions. It is an interesting, unexplored question whether allowing users to edit the feature importance at test time would improve a human-AI team's accuracy on downstream tasks. In this paper, we address this question by leveraging CHM-Corr, a state-of-the-art, ante-hoc explainable classifier \cite{taesiri2022visual} that first predicts patch-wise correspondences between the input and training-set images, and then base on them to make classification decisions. We build CHM-Corr++, an interactive interface for CHM-Corr, enabling users to edit the feature attribution map provided by CHM-Corr and observe updated model decisions. Via CHM-Corr++, users can gain insights into if, when, and how the model changes its outputs, improving their understanding beyond static explanations. However, our user study with 18 users who performed 1,400 decisions finds no statistical significance that our interactive approach improves user accuracy on CUB-200 bird image classification over static explanations. This challenges the hypothesis that interactivity can boost human-AI team accuracy~\cite{sokol2020one,sun2022exploring,shen2024towards,singh2024rethinking,mindlin2024beyond,lakkaraju2022ret hinking,cheng2019explaining,liu2021understanding} and raises needs for future research. We open-source CHM-Corr++, an interactive tool for editing image classifier attention (see an interactive demo \href{http://137.184.82.109:7080/}{here}). % , and it lays the groundwork for future research to enable effective human-AI interaction in computer vision. We release code and data on \href{https://github.com/anguyen8/chm-corr-interactive}{github}.
- Abstract(参考訳): Explainable AI (XAI) における何千もの論文、注目マップ \cite{vaswani2017attention} と特徴属性マップ \cite{bansal2020sam} が、AIの判断に各入力機能がどの程度重要かを知る共通の手段として確立されている。
ユーザがテスト時に重要な機能を編集できるようにすることで、ダウンストリームタスクにおける人間とAIチームの精度が向上するかどうか、興味深い、未調査の質問である。
本稿では、入力画像とトレーニングセット画像のパッチワイド対応を最初に予測し、それらをベースとして分類決定を行う、最先端のAnte-hoc説明可能な分類器であるCHM-Corrを活用することで、この問題に対処する。
我々はCHM-CorrのインタラクティブインターフェースであるCHM-Corr++を構築し、CHM-Corrが提供する特徴属性マップを編集し、最新のモデル決定を観察する。
CHM-Corr++を使用すると、ユーザーはモデルが出力を変更するかどうか、いつ、どのように変更するかについての洞察を得ることができ、静的な説明以上の理解を改善することができる。
しかし,1400件の意思決定を行った18名のユーザを対象にした調査では,静的な説明よりもCUB-200の鳥画像分類において,対話的アプローチがユーザ精度を向上させるという統計的意義は見つからなかった。
この仮説は、対話性によって人間とAIのチームの精度が向上する、という仮説に挑戦する。
私たちは、画像分類器の注意を編集するインタラクティブツールであるCHM-Corr++をオープンソースにしました(対話型デモである \href{http://137.184.82.109:7080/}{here} を参照)。
1%であり,コンピュータビジョンにおける人間とAIの効果的なインタラクションの実現に向けた今後の研究の基盤を築き上げている。
We release code and data on \href{https://github.com/anguyen8/chm-corr-interactive}{github}.
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Relevant Irrelevance: Generating Alterfactual Explanations for Image Classifiers [11.200613814162185]
本稿では,ブラックボックス画像分類器の再現的説明の実現可能性を示す。
ニューラルネットワークに基づくブラックボックスモデルにこのアイデアを適用することが可能であることを初めて示します。
論文 参考訳(メタデータ) (2024-05-08T11:03:22Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - First Place Solution to the CVPR'2023 AQTC Challenge: A
Function-Interaction Centric Approach with Spatiotemporal Visual-Language
Alignment [15.99008977852437]
AQTC(Affordance-Centric Question-driven Task Completion)は、ビデオから包括的かつ体系的な指示を持つユーザに取得するために提案されている。
既存の手法は、視覚的信号と言語的信号の整合性、および人間の物体間の重要な相互作用情報を無視してきた。
本稿では,安定かつ信頼性の高いマルチモーダルデータに寄与する大規模事前学習型視覚モデルとビデオ言語モデルを組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-06-23T09:02:25Z) - Visual correspondence-based explanations improve AI robustness and
human-AI team accuracy [7.969008943697552]
自己解釈可能な画像分類器の2つの新しいアーキテクチャを提案し、まず最初に説明し、次に予測する。
当社のモデルは、アウト・オブ・ディストリビューション(OOD)データセットにおいて、一貫して(1ポイントから4ポイント)改善しています。
ImageNetとCUBの画像分類タスクにおいて、補完的な人間-AIチームの精度(つまり、AI-aloneか人間-aloneよりも高い)を初めて達成できることが示される。
論文 参考訳(メタデータ) (2022-07-26T10:59:42Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Clicking Matters:Towards Interactive Human Parsing [60.35351491254932]
この研究は、対話的な環境下での人間の解析課題に取り組む最初の試みである。
ベンチマークLIPでは85% mIoU,PASCAL-Person-Partでは80% mIoU,Helenでは75% mIoU,クラス毎のクリック数は1.95,3.02,2.84,1.09であった。
論文 参考訳(メタデータ) (2021-11-11T11:47:53Z) - Towards Visual Explainable Active Learning for Zero-Shot Classification [8.491675843389514]
ゼロショット分類は、トレーニングクラスとテストクラスが分離されたときに適用可能な問題を解決するための有望なパラダイムである。
本稿では,セマンティックナビゲータ(semantic navigator)の設計と実装による視覚的説明可能なアクティブラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-08-15T12:39:43Z) - A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring
of Answer Transcriptions in Video Job Interviews [14.091472037847499]
質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。
我々は,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを利用する。
最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-22T12:27:45Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Visual Question Answering with Prior Class Semantics [50.845003775809836]
候補解のセマンティクスに関連する追加情報を利用する方法を示す。
セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。
提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-05-04T02:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。