論文の概要: A Study on Large Language Models' Limitations in Multiple-Choice
Question Answering
- arxiv url: http://arxiv.org/abs/2401.07955v1
- Date: Mon, 15 Jan 2024 20:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:02:32.794080
- Title: A Study on Large Language Models' Limitations in Multiple-Choice
Question Answering
- Title(参考訳): 複数質問応答における大規模言語モデルの限界に関する検討
- Authors: Aisha Khatun and Daniel G. Brown
- Abstract要約: 26の小さなオープンソースモデルを分析し、その65%がタスクを理解していないことを発見した。
与えられた選択から解を適切に選ぶのは4つのモデルのみであり、これらのモデルのうち選択順序に依存しないのは5つのモデルのみである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of Large Language Models (LLMs) has become
commonplace, particularly with the emergence of open-source models. More
importantly, smaller models are well-suited for integration into consumer
devices and are frequently employed either as standalone solutions or as
subroutines in various AI tasks. Despite their ubiquitous use, there is no
systematic analysis of their specific capabilities and limitations. In this
study, we tackle one of the most widely used tasks - answering Multiple Choice
Question (MCQ). We analyze 26 small open-source models and find that 65% of the
models do not understand the task, only 4 models properly select an answer from
the given choices, and only 5 of these models are choice order independent.
These results are rather alarming given the extensive use of MCQ tests with
these models. We recommend exercising caution and testing task understanding
before using MCQ to evaluate LLMs in any field whatsoever.
- Abstract(参考訳): 大規模言語モデル(llm)の普及は、特にオープンソースモデルの出現とともに、一般的になっている。
さらに重要なのは、小型モデルはコンシューマデバイスとの統合に適しており、スタンドアロンソリューションやAIタスクのサブルーチンとして頻繁に使用されることだ。
ユビキタスな使用にもかかわらず、特定の能力や制限に関する体系的な分析は行われていない。
本研究では,最も広く使われている課題の一つ,MCQ(Multiple Choice Question)に回答する。
26の小さなオープンソースモデルを分析して,65%のモデルがタスクを理解していないこと,4つのモデルのみが与えられた選択から回答を適切に選択していること,5つのモデルが独立した選択順序であることを確認した。
これらのモデルでMCQテストが広範囲に使用されていることを考えると、これらの結果はかなり危険である。
MCQを用いて、どんな分野でもLCMを評価する前に、注意喚起やタスク理解のテストを行うことを推奨する。
関連論文リスト
- Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - Improving the Capabilities of Large Language Model Based Marketing Analytics Copilots With Semantic Search And Fine-Tuning [0.9787137564521711]
本稿では, 意味探索, プロンプトエンジニアリング, 微調整を組み合わせることで, LLMのタスクを正確に実行する能力を大幅に向上させることができることを示す。
GPT-4のようなプロプライエタリなモデルと、Llama-2-70bのようなオープンソースのモデル、および様々な埋め込み方法を比較します。
論文 参考訳(メタデータ) (2024-04-16T03:39:16Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。