論文の概要: Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering
- arxiv url: http://arxiv.org/abs/2404.10193v1
- Date: Tue, 16 Apr 2024 00:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:31:57.311959
- Title: Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering
- Title(参考訳): 一貫性と不確実性:選択的視覚質問応答のためのブラックボックス視覚言語モデルからの信頼できない応答の同定
- Authors: Zaid Khan, Yun Fu,
- Abstract要約: 本研究では,現実的なブラックボックス環境下での視覚言語モデルの選択的予測の可能性について検討する。
そこで本研究では,ブラックボックスの視覚言語モデルから信頼できない応答を識別するために,テキストの一貫性の原理を用いることを提案する。
- 参考スコア(独自算出の注目度): 46.823415680462844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of selective prediction is to allow an a model to abstain when it may not be able to deliver a reliable prediction, which is important in safety-critical contexts. Existing approaches to selective prediction typically require access to the internals of a model, require retraining a model or study only unimodal models. However, the most powerful models (e.g. GPT-4) are typically only available as black boxes with inaccessible internals, are not retrainable by end-users, and are frequently used for multimodal tasks. We study the possibility of selective prediction for vision-language models in a realistic, black-box setting. We propose using the principle of \textit{neighborhood consistency} to identify unreliable responses from a black-box vision-language model in question answering tasks. We hypothesize that given only a visual question and model response, the consistency of the model's responses over the neighborhood of a visual question will indicate reliability. It is impossible to directly sample neighbors in feature space in a black-box setting. Instead, we show that it is possible to use a smaller proxy model to approximately sample from the neighborhood. We find that neighborhood consistency can be used to identify model responses to visual questions that are likely unreliable, even in adversarial settings or settings that are out-of-distribution to the proxy model.
- Abstract(参考訳): 選択予測の目標は、安全クリティカルな文脈において重要な信頼性のある予測を配信できない場合、モデルを停止させることである。
選択予測への既存のアプローチは、通常、モデルの内部へのアクセスを必要とし、モデルを再訓練したり、単調なモデルのみを研究する必要がある。
しかしながら、最も強力なモデル(eg GPT-4)は、通常、アクセス不能な内部を持つブラックボックスとしてのみ利用可能であり、エンドユーザによって再トレーニングされず、マルチモーダルタスクに頻繁に使用される。
本研究では,現実的なブラックボックス環境下での視覚言語モデルの選択的予測の可能性について検討する。
そこで我々は,ブラックボックスの視覚言語モデルから信頼できない応答を識別し,課題に答えるために,‘textit{neighborhood consistency} の原理を用いて提案する。
視覚的質問とモデル応答のみが与えられた場合、視覚的質問の近傍でのモデルの応答の整合性は信頼性を示すと仮定する。
ブラックボックスの設定で隣人を特徴空間で直接サンプリングすることは不可能である。
代わりに、より小さなプロキシモデルを使用して、近隣からのサンプルを概ね作成できることが示される。
プロキシモデルに非分布な逆の設定や設定であっても、視覚的質問に対するモデル応答の特定には、近傍の一貫性が有効であることがわかった。
関連論文リスト
- Prediction without Preclusion: Recourse Verification with Reachable Sets [16.705988489763868]
本稿では,モデルが決定対象に一定の予測を割り当てているかどうかを検証するために,リコース検証と呼ばれる手法を提案する。
本研究は,消費者金融のデータセットにおけるリコースの有効性に関する包括的実証研究である。
論文 参考訳(メタデータ) (2023-08-24T14:24:04Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Uncertainty Quantification for Local Model Explanations Without Model
Access [0.44241702149260353]
本稿では,機械学習モデルに対するポストホックな説明を生成するためのモデルに依存しないアルゴリズムを提案する。
本アルゴリズムは,モデルクエリの有限サンプルから説明を生成する際に必然的に発生する不確実性を定量化するためにブートストラップ方式を用いる。
論文 参考訳(メタデータ) (2023-01-13T21:18:00Z) - PRISM: Probabilistic Real-Time Inference in Spatial World Models [52.878769723544615]
PRISMはエージェントの動きと視覚知覚の確率的生成モデルにおけるリアルタイムフィルタリングの手法である。
提案手法は10Hzでリアルタイムに動作し,小型・中型屋内環境における最先端SLAMと同等に精度が高い。
論文 参考訳(メタデータ) (2022-12-06T13:59:06Z) - Post-Selection Confidence Bounds for Prediction Performance [2.28438857884398]
機械学習では、潜在的に多くの競合モデルから有望なモデルを選択し、その一般化性能を評価することが重要な課題である。
本稿では,評価セットの予測性能に基づいて選択された複数のモデルに対して,有効な低信頼境界を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-24T13:28:43Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Learning Global Transparent Models Consistent with Local Contrastive
Explanations [34.86847988157447]
ブラックボックスモデルについて,局所的な対照的な説明からカスタム機能を作成し,これらだけでグローバルに透過的なモデルをトレーニングする。
そこで本研究では,ブラックボックスモデルの局所的な対照的な説明からカスタムな特徴を創出し,その上にグローバルな透明なモデルをトレーニングする手法を提案する。
論文 参考訳(メタデータ) (2020-02-19T15:45:42Z) - Interpretable Companions for Black-Box Models [13.39487972552112]
事前訓練されたブラックボックス分類器に対する解釈可能な共役モデルを提案する。
任意の入力に対して、ユーザーは高い精度でブラックボックスモデルから予測を受け付けるか、説明をしないか、または少し低い精度で解釈可能な予測を得るためにコンパニオンルールを使用することができる。
コンパニオンモデルは、データとブラックボックスモデルの予測から訓練され、透明性-精度曲線とモデルの複雑さの下で、客観的な結合領域を持つ。
論文 参考訳(メタデータ) (2020-02-10T01:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。