論文の概要: Asking More Informative Questions for Grounded Retrieval
- arxiv url: http://arxiv.org/abs/2311.08584v1
- Date: Tue, 14 Nov 2023 23:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:51:00.351764
- Title: Asking More Informative Questions for Grounded Retrieval
- Title(参考訳): 接地検索のためのより情報的な質問
- Authors: Sedrick Keh, Justin T. Chiu, Daniel Fried
- Abstract要約: より情報的でオープンな質問を定式化するアプローチを提案する。
市販の視覚的質問応答(VQA)モデルは、しばしば前提誤差を発生させる。
提案手法は,従来の最先端技術よりも14%精度の高い情報公開質問に成功していることを示す。
- 参考スコア(独自算出の注目度): 19.0155190108959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a model is trying to gather information in an interactive setting, it
benefits from asking informative questions. However, in the case of a grounded
multi-turn image identification task, previous studies have been constrained to
polar yes/no questions, limiting how much information the model can gain in a
single turn. We present an approach that formulates more informative,
open-ended questions. In doing so, we discover that off-the-shelf visual
question answering (VQA) models often make presupposition errors, which
standard information gain question selection methods fail to account for. To
address this issue, we propose a method that can incorporate presupposition
handling into both question selection and belief updates. Specifically, we use
a two-stage process, where the model first filters out images which are
irrelevant to a given question, then updates its beliefs about which image the
user intends. Through self-play and human evaluations, we show that our method
is successful in asking informative open-ended questions, increasing accuracy
over the past state-of-the-art by 14%, while resulting in 48% more efficient
games in human evaluations.
- Abstract(参考訳): モデルがインタラクティブな設定で情報を集めようとするとき、それは情報的な質問の恩恵を受ける。
しかし,マルチターン画像識別タスクの場合,従来の研究では,1ターンでモデルが得られる情報量を制限するために,イエス/ノー質問の偏極に制限されていた。
より情報的でオープンな質問を定式化するアプローチを提案する。
その際,既定の視覚質問応答(vqa)モデルでは前置誤差が発生することが多く,標準情報による質問選択手法では説明できないことが判明した。
この問題に対処するために,質問選択と信条更新の両方に事前提案処理を組み込む手法を提案する。
具体的には、2段階のプロセスを使い、まずモデルが与えられた質問に無関係な画像をフィルタリングし、次にユーザが意図する画像を更新する。
自己評価と人的評価を通じ,我々の手法は情報公開型の質問に成功し,過去の最先端技術よりも精度を14%向上させ,その結果,人間の評価においてより効率のよいゲームが48%向上したことを示す。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Selectively Answering Ambiguous Questions [38.83930394700588]
我々は, サンプルモデル出力における繰り返しの定量化が, 退避時期を決定する最も信頼性の高い手法であることが判明した。
その結果,サンプリングに基づく信頼度スコアは,比較的あいまいな質問に対する回答のキャリブレーションに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T01:25:38Z) - CLAM: Selective Clarification for Ambiguous Questions with Large
Language Models [37.37606905433334]
我々は,現在の SotA モデルでは,不正確な質問を提示しても,ユーザに対して明確化を求めないことを示す。
CLAMは,まずモデルを用いて曖昧な質問を検知し,不明瞭な質問が検出された場合,ユーザに対して明確化を求める。
本研究では,新しいあいまいな質問応答データセットを用いて,SotAに対して20.15パーセントの精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2022-12-15T12:47:18Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - Controllable Open-ended Question Generation with A New Question Type
Ontology [6.017006996402699]
複数の文で通常答えられるオープンエンドな質問を生成するという,探索の少ない課題について検討する。
まず、広く使われている質問語よりも、質問のニュアンスの性質をよりよく区別する新しい質問型オントロジーを定義する。
次に,意味グラフ表現によって拡張された質問型認識型質問生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-01T00:02:03Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Rephrasing visual questions by specifying the entropy of the answer
distribution [0.0]
本稿では,質問のあいまいさを制御し,新しい課題を提案する。
視覚的質問のあいまいさは、VQAモデルによって予測される回答分布のエントロピーを用いて定義される。
我々は,質問のあいまいさを制御できるアプローチの利点を実証し,あいまいさを減らすことよりも増大が難しいという興味深い観察を行った。
論文 参考訳(メタデータ) (2020-04-10T09:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。