論文の概要: Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QA
- arxiv url: http://arxiv.org/abs/2410.02343v1
- Date: Thu, 3 Oct 2024 09:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:50:17.204409
- Title: Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QA
- Title(参考訳): ワイズフリューの聴取:マルチコースQAのための選択・コピーアテンションヘッド
- Authors: Eduard Tulchinskii, Laida Kushnareva, Kristian Kuznetsov, Anastasia Voznyuk, Andrei Andriiainen, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov,
- Abstract要約: モデルの基礎となる知識を捕捉し、明らかにする新しいスコアを導入します。
これらの結果から,LLaMA2-7Bでは知識抽出が最大16%向上した。
モデルが正しい答えを明示的に知っている単純な合成データセットの精度は、ほぼ60%向上する。
- 参考スコア(独自算出の注目度): 19.78468832417275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A standard way to evaluate the abilities of LLM involves presenting a multiple-choice question and selecting the option with the highest logit as the model's predicted answer. However, such a format for evaluating LLMs has limitations, since even if the model knows the correct answer, it may struggle to select the corresponding letter simply due to difficulties in following this rigid format. To address this, we introduce new scores that better capture and reveal model's underlying knowledge: the Query-Key Score (QK-score), derived from the interaction between query and key representations in attention heads, and the Attention Score, based on attention weights. These scores are extracted from specific \textit{select-and-copy} heads, which show consistent performance across popular Multi-Choice Question Answering (MCQA) datasets. Based on these scores, our method improves knowledge extraction, yielding up to 16\% gain for LLaMA2-7B and up to 10\% for larger models on popular MCQA benchmarks. At the same time, the accuracy on a simple synthetic dataset, where the model explicitly knows the right answer, increases by almost 60\%, achieving nearly perfect accuracy, therefore demonstrating the method's efficiency in mitigating MCQA format limitations. To support our claims, we conduct experiments on models ranging from 7 billion to 70 billion parameters in both zero- and few-shot setups.
- Abstract(参考訳): LLMの能力を評価する標準的な方法は、複数の選択質問を提示し、モデルが予測する答えとして最も高いロジットでオプションを選択することである。
しかし、LCMの評価フォーマットには制限があり、たとえモデルが正しい答えを知っているとしても、この厳密な形式に従うのが難しいため、対応する文字を選択するのに苦労する可能性がある。
これを解決するために,クエリキースコア (QKスコア) とアテンション重みに基づくアテンションスコア (Attention Score) という,モデルの基本的知識をよりよく捉え,明らかにする新たなスコアを導入する。
これらのスコアは、人気のMulti-Choice Question Answering (MCQA)データセット間で一貫したパフォーマンスを示す特定の \textit{select-and-copy} ヘッドから抽出される。
これらのスコアに基づいて知識抽出を改善し,LLaMA2-7Bでは最大16倍,MCQAベンチマークでは最大10倍の利得を得た。
同時に、モデルが正しい答えを明示的に知っている単純な合成データセットの精度は、ほぼ完全な精度を達成し、MCQAフォーマットの制限を緩和する手法の効率を示す。
我々の主張を支持するために、ゼロショットと少数ショットの両方のセットアップにおいて70億から700億のパラメータのモデルで実験を行う。
関連論文リスト
- Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,関連する情報を符号化するキー隠蔽状態をローカライズするために,語彙投影とアクティベーションパッチ手法を用いる。
特定の回答記号の予測は、一つの中間層、特にその多頭部自己認識機構に因果関係があることが示される。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - Is Your Large Language Model Knowledgeable or a Choices-Only Cheater? [16.384333600053342]
最近の研究は、大きな言語モデル(LLM)が選択のみを使用して複数の選択肢の質問に答えることができることを示している。
我々は、MCQAにおける選択のみのショートカットにLLMが過剰に頼っているかどうかを調査するコントラストセットを使用する。
コントラストセットを検証した後、12個のLCMをテストし、これらのモデルが質問と選択の両方を与えられた場合、選択のみのショートカットに依存しないことを示した。
論文 参考訳(メタデータ) (2024-07-02T07:06:53Z) - UnibucLLM: Harnessing LLMs for Automated Prediction of Item Difficulty and Response Time for Multiple-Choice Questions [25.877058354902953]
本研究は,BEA 2024共有タスクにおけるUSMLE多項目質問(MCQ)の項目難易度と応答時間を予測するために,LLM(Large Language Models)に基づく新しいデータ拡張手法を提案する。
我々のアプローチは、ゼロショットLLMからの回答をデータセットに拡張し、6つの代替機能の組み合わせに基づいてトランスフォーマーベースのモデルを採用することに基づいている。
論文 参考訳(メタデータ) (2024-04-20T10:41:02Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Leveraging Large Language Models for Multiple Choice Question Answering [6.198523595657983]
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-22T05:04:54Z) - Few-Shot Question Answering by Pretraining Span Selection [58.31911597824848]
私たちは、数百のトレーニング例しか利用できない、より現実的な数ショット設定を探索します。
標準スパン選択モデルの性能が低下していることを示し,現在の事前学習目標が質問応答から遠ざかっていることを浮き彫りにした。
本研究は,事前学習方式とモデルアーキテクチャの注意深い設計が,数ショット設定における性能に劇的な影響を及ぼすことを示唆している。
論文 参考訳(メタデータ) (2021-01-02T11:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。