論文の概要: Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2402.15610v2
- Date: Wed, 12 Jun 2024 21:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:45:25.485336
- Title: Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning
- Title(参考訳): 選択的「選択予測」:視覚言語推論における不要な留意を減らす
- Authors: Tejas Srinivasan, Jack Hessel, Tanmay Gupta, Bill Yuchen Lin, Yejin Choi, Jesse Thomason, Khyathi Raghavi Chandu,
- Abstract要約: 本稿では,選択型視覚言語システムの過剰保持を低減するための推論時アルゴリズムReCoVERRを紹介する。
ReCoVERRは、予測のための追加の証拠を提供する画像の中に、関連する手がかりを見つけようとする。
- 参考スコア(独自算出の注目度): 67.82016092549284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selective prediction minimizes incorrect predictions from vision-language models (VLMs) by allowing them to abstain from answering when uncertain. However, when deploying a vision-language system with low tolerance for inaccurate predictions, selective prediction may be over-cautious and abstain too frequently, even on many correct predictions. We introduce ReCoVERR, an inference-time algorithm to reduce the over-abstention of a selective vision-language system without increasing the error rate of the system's predictions. When the VLM makes a low-confidence prediction, instead of abstaining ReCoVERR tries to find relevant clues in the image that provide additional evidence for the prediction. ReCoVERR uses an LLM to pose related questions to the VLM, collects high-confidence evidences, and if enough evidence confirms the prediction the system makes a prediction instead of abstaining. ReCoVERR enables three VLMs (BLIP2, InstructBLIP, and LLaVA-1.5) to answer up to 20% more questions on the VQAv2 and A-OKVQA tasks without decreasing system accuracy, thus improving overall system reliability. Our code is available at https://github.com/tejas1995/ReCoVERR.
- Abstract(参考訳): 選択予測(Selective prediction)は、視覚言語モデル(VLM)からの誤った予測を最小化する。
しかし、不正確な予測に対する耐性が低い視覚言語システムを展開する場合、選択的予測は過度に注意され、多くの正しい予測に対しても頻繁に無視される可能性がある。
本稿では,システム予測の誤り率を増大させることなく,選択的な視覚言語システムの過剰保持を低減する推論時アルゴリズムReCoVERRを紹介する。
VLMが低信頼の予測を行う場合、ReCoVERRを控える代わりに、予測のための追加の証拠を提供する画像に関連した手がかりを見つけようとする。
ReCoVERR は LLM を用いて VLM に関連する質問を提起し、高信頼の証拠を収集し、もし十分な証拠があれば、システムが棄権する代わりに予測を行う。
ReCoVERRは3つのVLM(BLIP2、InstructBLIP、LLaVA-1.5)をシステム精度を低下させることなくVQAv2およびA-OKVQAタスクに対して最大20%の質問に答えることを可能にし、システム全体の信頼性を向上させる。
私たちのコードはhttps://github.com/tejas1995/ReCoVERR.comで公開されています。
関連論文リスト
- Correct after Answer: Enhancing Multi-Span Question Answering with Post-Processing Method [11.794628063040108]
マルチスパン質問回答(Multi-Span Question Answering、MSQA)は、ある質問に答えるために、与えられたコンテキストから1つまたは複数の回答スパンを抽出するモデルを必要とする。
本稿では,不正確な予測処理に後処理戦略を用いるAnswering-Classifying-Correcting(ACC)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-22T08:04:32Z) - Eliciting Uncertainty in Chain-of-Thought to Mitigate Bias against Forecasting Harmful User Behaviors [29.892041865029803]
会話予測タスクは、展開された会話の結果を予測するモデルである。
ソーシャルメディアのモデレーションに応用すれば、有害なユーザーの行動を予測することができる。
本稿では,潜在的なバイアスを軽減するツールとして,モデルの不確実性がどの程度有効かを検討する。
論文 参考訳(メタデータ) (2024-10-17T15:07:53Z) - Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T09:31:03Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Conformal Prediction Regions for Time Series using Linear
Complementarity Programming [25.094249285804224]
本稿では,長期の地平面計画と検証を可能にするために,保守性を低減する最適化手法を提案する。
この問題を混合整数線形相補性プログラム (MILCP) としてキャストし, 線形相補性プログラム (LCP) に緩和することを示した。
論文 参考訳(メタデータ) (2023-04-03T15:32:38Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Aligned Contrastive Predictive Coding [10.521845940927163]
対照的予測損失を用いて訓練された自己監督モデルが、ゆっくりと変化する潜在表現を抽出する可能性を研究する。
将来の表現ごとに個別の予測を生成するのではなく、モデルはそれらが整列する次の表現よりも短い一連の予測を出力する。
論文 参考訳(メタデータ) (2021-04-24T13:07:22Z) - Controlled abstention neural networks for identifying skillful
predictions for regression problems [0.0]
我々は、ニューラルネットワークが回帰問題に対する機会予測を識別できる新しい損失関数「アテンション損失」を導入する。
トレーニング中に、より確実なサンプルから優先的に学習するために、禁忌損失が適用される。
論文 参考訳(メタデータ) (2021-04-16T17:16:32Z) - AutoCP: Automated Pipelines for Accurate Prediction Intervals [84.16181066107984]
本稿では、自動予測のための自動機械学習(Automatic Machine Learning for Conformal Prediction, AutoCP)というAutoMLフレームワークを提案する。
最高の予測モデルを選択しようとする慣れ親しんだAutoMLフレームワークとは異なり、AutoCPは、ユーザが指定したターゲットカバレッジ率を達成する予測間隔を構築する。
さまざまなデータセットでAutoCPをテストしたところ、ベンチマークアルゴリズムを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-24T23:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。