論文の概要: Ensemble of MRR and NDCG models for Visual Dialog
- arxiv url: http://arxiv.org/abs/2104.07511v1
- Date: Thu, 15 Apr 2021 15:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 21:30:38.570507
- Title: Ensemble of MRR and NDCG models for Visual Dialog
- Title(参考訳): ビジュアルダイアログのためのMRRモデルとNDCGモデルのアンサンブル
- Authors: Idan Schwartz
- Abstract要約: 人間の言語で会話し、視覚的コンテンツを理解するAIエージェントを評価することは難しい。
平均相互ランク(mrr)メトリックは、1つの人間由来の回答のランクを考慮してモデルパフォーマンスを評価する。
強MRRモデルとNDCGモデルをマージできる2段階の非パラメトリックランキング手法について述べる。
- 参考スコア(独自算出の注目度): 5.025654873456756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing an AI agent that can converse in human language and understand
visual content is challenging. Generation metrics, such as BLEU scores favor
correct syntax over semantics. Hence a discriminative approach is often used,
where an agent ranks a set of candidate options. The mean reciprocal rank (MRR)
metric evaluates the model performance by taking into account the rank of a
single human-derived answer. This approach, however, raises a new challenge:
the ambiguity and synonymy of answers, for instance, semantic equivalence
(e.g., `yeah' and `yes'). To address this, the normalized discounted cumulative
gain (NDCG) metric has been used to capture the relevance of all the correct
answers via dense annotations. However, the NDCG metric favors the usually
applicable uncertain answers such as `I don't know. Crafting a model that
excels on both MRR and NDCG metrics is challenging. Ideally, an AI agent should
answer a human-like reply and validate the correctness of any answer. To
address this issue, we describe a two-step non-parametric ranking approach that
can merge strong MRR and NDCG models. Using our approach, we manage to keep
most MRR state-of-the-art performance (70.41% vs. 71.24%) and the NDCG
state-of-the-art performance (72.16% vs. 75.35%). Moreover, our approach won
the recent Visual Dialog 2020 challenge. Source code is available at
https://github.com/idansc/mrr-ndcg.
- Abstract(参考訳): 人間の言語で会話し、視覚的コンテンツを理解するAIエージェントを評価することは難しい。
BLEUスコアのような生成メトリクスは、意味論よりも正しい構文を好む。
したがって、エージェントが候補オプションのセットをランク付けする差別的アプローチがしばしば用いられる。
平均相互ランク(mrr)メトリックは、1つの人間由来の回答のランクを考慮してモデルパフォーマンスを評価する。
しかし、このアプローチは、例えば意味的同値(例えば、'yeah' や 'yes')のような答えの曖昧さと同義性という新しい課題を提起する。
これに対処するため、正規化割引累積ゲイン(ndcg)メトリックは、密接なアノテーションによってすべての正しい答えの関連性を捉えるために使われてきた。
しかし、NDCGの計量は、「私は知らない」といった通常不確実な答えを好んでいる。
MRRとNDCGのメトリクスに優れたモデルを構築することは難しい。
理想的には、AIエージェントは人間のような回答に答え、どんな答えの正しさも検証すべきである。
この問題に対処するために、強いMRRとNDCGモデルをマージできる2段階の非パラメトリックランキング手法について述べる。
このアプローチを用いることで、ほとんどのMRR(70.41%対71.24%)とNDCG(72.16%対75.35%)を維持できる。
さらに,最近のvisual dialog 2020チャレンジでは,このアプローチが優勝した。
ソースコードはhttps://github.com/idansc/mrr-ndcgで入手できる。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - BUCA: A Binary Classification Approach to Unsupervised Commonsense
Question Answering [11.99004747630325]
非教師付きコモンセンス推論(UCR)は、コモンセンス推論データセットの構築が高価であるため、ますます人気が高まっている。
本稿では、下流の複数選択質問応答タスクを、その妥当性に応じて全ての候補回答をランク付けすることで、より単純な二分分類タスクに変換することを提案する。
論文 参考訳(メタデータ) (2023-05-25T10:59:47Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - What Can Secondary Predictions Tell Us? An Exploration on
Question-Answering with SQuAD-v2.0 [0.0]
我々は、例の黄金のランク(GR)を、根拠となる真実と正確に一致する最も自信のある予測のランクとして定義する。
我々が分析した16の変圧器モデルでは、第2の予測空間における正確に一致した黄金の答えの大部分は、最上位に非常に近い位置にある。
GRIM(Golden Rank Interpolated Median)と呼ばれる,テストセット全体の新しい集計統計を導出する。
論文 参考訳(メタデータ) (2022-06-29T01:17:47Z) - Toward a Generalization Metric for Deep Generative Models [18.941388632914666]
深部生成モデル(DGM)の一般化能力の測定は困難である。
評価指標の堅牢性を比較するためのフレームワークを提案する。
我々はジェネレーション潜在変数モデル(GLVM)の複雑さを推定する効率的な方法を開発した。
論文 参考訳(メタデータ) (2020-11-02T05:32:07Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。