論文の概要: ANPMI: Assessing the True Comprehension Capabilities of LLMs for Multiple Choice Questions
- arxiv url: http://arxiv.org/abs/2502.18798v2
- Date: Thu, 27 Feb 2025 08:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 11:31:52.830578
- Title: ANPMI: Assessing the True Comprehension Capabilities of LLMs for Multiple Choice Questions
- Title(参考訳): ANPMI:複数質問に対するLLMの真の理解能力の評価
- Authors: Gyeongje Cho, Yeonkyoung So, Jaejin Lee,
- Abstract要約: 様々なプロンプトと選択からなる多重選択ベンチマークは、言語モデルの自然言語理解能力を評価する最も広く使われている手法の一つである。
提案手法を用いて測定された性能は,プロンプトに対するモデルによる理解だけでなく,プロンプトによらず特定の選択に対する固有のバイアスも反映している。
本稿では,ポイントワイド・ミューチュアル・インフォメーション(PMI)を$-log P(Choice)$で正規化するANPMIという新しい計量法を提案する。
- 参考スコア(独自算出の注目度): 1.649505438157608
- License:
- Abstract: Multiple-choice benchmarks, consisting of various prompts and choices, are among the most widely used methods to assess a language model's natural language understanding capability. Given a specific prompt, we typically compute $P(Choice|Prompt)$ to evaluate how likely a language model is to generate the correct choice compared to incorrect ones. However, we observe that performance measured using this approach reflects not only the model's comprehension of the prompt but also its inherent biases for certain choices regardless of the prompt. This issue makes it challenging to accurately measure a model's natural language understanding, as models may select the answer without fully understanding the prompt. To address this limitation, we propose a novel metric called ANPMI, which normalizes Pointwise Mutual Information (PMI) by $-\log P(Choice)$. ANPMI provides a more accurate assessment of the model's natural language understanding by ensuring that it is challenging to answer a question without properly understanding the prompt.
- Abstract(参考訳): 様々なプロンプトと選択からなる多重選択ベンチマークは、言語モデルの自然言語理解能力を評価する最も広く使われている手法の一つである。
特定のプロンプトが与えられた場合、典型的には$P(Choice|Prompt)$を計算して、言語モデルが正しい選択を生成する可能性を評価する。
しかし、本手法を用いて測定された性能は、プロンプトに対するモデルによる理解だけでなく、プロンプトに関係なく特定の選択に対する固有のバイアスも反映している。
この問題は、モデルがプロンプトを完全に理解せずに答えを選択するため、モデルの自然言語理解を正確に測定することは困難である。
この制限に対処するため、ANPMIと呼ばれる新しい計量を提案し、ポイントワイド相互情報(PMI)を$-\log P(Choice)$で正規化する。
ANPMIは、モデルの自然言語理解をより正確に評価し、プロンプトを適切に理解せずに質問に答えることが難しいことを保証している。
関連論文リスト
- From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries [6.382667978271587]
Retrieval Augmented Generation (RAG) は、あるユーザプロンプトに対する応答を増やすために、外部コンテキストを使って言語モデルを推論する能力を強化する。
このアプローチは、検索、質問/回答、チャットボットにおける言語モデルの様々な応用における実践的な応用により、人気が高まっている。
本稿では,RAGパイプラインを機械的に検討し,言語モデルがショートカットをとっており,パラメトリックメモリを最小限に頼りながら,文脈情報のみを活用することに強いバイアスを持つことを示す。
論文 参考訳(メタデータ) (2024-06-18T17:46:08Z) - CELL your Model: Contrastive Explanations for Large Language Models [15.127559387747521]
ブラックボックス/クエリアクセスを必要とする対照的な説明法を提案する。
オープンテキスト生成などの重要な自然言語タスクに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T17:39:10Z) - Scenarios and Approaches for Situated Natural Language Explanations [18.022428746019582]
ベンチマークデータセットである条件ベース説明を収集します。
このデータセットには100の説明書が含まれている。
オーディエンスと組み合わせたエクスラナンダム(explanandum paired with a audience)"の各状況について、人間による説明を含める。
本稿では,ルールベースのプロンプト,メタプロンプト,コンテキスト内学習プロンプトの3つのカテゴリについて検討する。
論文 参考訳(メタデータ) (2024-06-07T15:56:32Z) - Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Universal Self-Adaptive Prompting [60.67460565566514]
Universal Self-Adaptive Prompting (USP) はゼロショット学習に適した自動プロンプト設計手法である。
USPは普遍的なプロンプトを達成するために、可能なNLPタスクを3つの可能なタスクタイプのうちの1つに分類する。
我々は,PaLMおよびPaLM 2モデルを用いてUSPを評価し,標準ゼロショットベースラインよりもかなり強い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T09:09:48Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - CLAM: Selective Clarification for Ambiguous Questions with Large
Language Models [37.37606905433334]
我々は,現在の SotA モデルでは,不正確な質問を提示しても,ユーザに対して明確化を求めないことを示す。
CLAMは,まずモデルを用いて曖昧な質問を検知し,不明瞭な質問が検出された場合,ユーザに対して明確化を求める。
本研究では,新しいあいまいな質問応答データセットを用いて,SotAに対して20.15パーセントの精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2022-12-15T12:47:18Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。