論文の概要: (WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges
- arxiv url: http://arxiv.org/abs/2501.01588v1
- Date: Fri, 03 Jan 2025 00:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:33.705528
- Title: (WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges
- Title(参考訳): (WhyPHI)ファインチューニングPHI-3による複数項目質問回答:方法論,結果,課題
- Authors: Mohamed Hisham Abdellatif,
- Abstract要約: この研究は、マイクロソフトのPHI-3citeAbdin2024(コンパクトで効率的で複数の質問に答えるLLM)の可能性を探るものである。
PHI-3.5のMCQ処理は4.68から2.27に減少し、精度は62%から90.8%に向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) have become essential tools across various domains due to their impressive capabilities in understanding and generating human-like text. The ability to accurately answer multiple-choice questions (MCQs) holds significant value in education, particularly in automated tutoring systems and assessment platforms. However, adapting LLMs to handle MCQ tasks effectively remains challenging due to the hallucinations and unclear prompts. This work explores the potential of Microsoft's PHI-3\cite{Abdin2024}, a compact yet efficient LLM, for MCQ answering. Our contributions include fine-tuning the model on the TruthfulQA dataset, designing optimized prompts to enhance model performance, and evaluating using perplexity and traditional metrics like accuracy and F1 score. Results show a remarkable improvement in PHI-3.5's MCQ handling post-fine-tuning, with perplexity decreasing from 4.68 to 2.27, and accuracy rising from 62\% to 90.8\%. This research underlines the importance of efficient models in adaptive learning systems and educational assessments, paving the way for broader integration into the classroom, particularly in fields like test preparation, student feedback, and personalized learning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間のようなテキストの理解と生成に際し、様々な領域において重要なツールとなっている。
マルチ選択質問(MCQ)を正確に答える能力は、特に自動学習システムやアセスメントプラットフォームにおいて、教育において大きな価値を持っている。
しかし,MCQタスクの処理にLLMを適用することは,幻覚や不明瞭なプロンプトのため,依然として困難である。
この研究は、MCQ応答のためのコンパクトで効率的なLCMであるMicrosoftのPHI-3\cite{Abdin2024}の可能性を探るものである。
コントリビューションには、TrathfulQAデータセット上でモデルを微調整すること、モデルパフォーマンスを向上させるために最適化されたプロンプトを設計すること、パープレキシティと精度やF1スコアといった従来のメトリクスを使用して評価すること、などが含まれています。
その結果, PHI-3.5のMCQ処理では, パープレキシティは4.68から2.27に低下し, 精度は62\%から90.8\%に向上した。
本研究は、適応学習システムと教育評価における効率的なモデルの重要性を強調し、特にテスト準備、学生のフィードバック、パーソナライズドラーニングといった分野において、教室への広範な統合の道を開くものである。
関連論文リスト
- Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Does Multiple Choice Have a Future in the Age of Generative AI? A Posttest-only RCT [2.116573423199236]
効果的な学習ツールとしてのマルチチョイス質問(MCQ)の役割は過去の研究で議論されてきた。
本研究は,学習におけるオープン応答型質問に対するMCQの有効性を評価する。
テスト後の条件間では有意な学習差は認められなかったが,教官の指導に要した時間は大幅に短縮された。
論文 参考訳(メタデータ) (2024-12-13T16:37:20Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - How Can I Improve? Using GPT to Highlight the Desired and Undesired Parts of Open-ended Responses [11.809647985607935]
提案手法は,説明的フィードバックを提供する上で,望ましい,望ましくないコンポーネントを識別することに焦点を当てたシーケンスラベリング手法を提案する。
GPTモデルにより同定された強調された賞賛成分の品質を定量化するため,M-IoU(Modified Intersection over Union)スコアを導入した。
以上の結果から,(1)M-IoUスコアはシーケンス品質評価における人的判断と効果的に相関し,(2)GPT-3.5上での2ショットプロンプトは,努力に基づく評価と成果に基づく評価の認識において良好な性能を示し,(3)M-IoUスコアの0.6が最適微調整GPT-3.5モデルであった。
論文 参考訳(メタデータ) (2024-05-01T02:59:10Z) - Boosting Theory-of-Mind Performance in Large Language Models via
Prompting [2.538209532048867]
本研究は,GPT-4および3種類のGPT-3.5のToM特性を測定する。
ToM理解の改善における文脈内学習の有効性を検討した。
論文 参考訳(メタデータ) (2023-04-22T22:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。