論文の概要: The Veln(ia)s is in the Details: Evaluating LLM Judgment on Latvian and Lithuanian Short Answer Matching
- arxiv url: http://arxiv.org/abs/2501.09164v1
- Date: Wed, 15 Jan 2025 21:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:45.741860
- Title: The Veln(ia)s is in the Details: Evaluating LLM Judgment on Latvian and Lithuanian Short Answer Matching
- Title(参考訳): Veln(ia)s is in the details: Evaluating LLM Judgment on Latvian and nis Short Answer Matching
- Authors: Yevhen Kostiuk, Oxana Vitman, Łukasz Gagała, Artur Kiulian,
- Abstract要約: ラトビア語502組とリトアニア語690組からなる新しいデータセットを導入する。
各問合せ対について,一組の修正規則を用いて一致解と非一致解を生成した。
これらの回答は、LLMが元の回答のマッチングの微妙な違いを検出する能力を評価するためのテストケースとして機能する。
- 参考スコア(独自算出の注目度): 2.06242362470764
- License:
- Abstract: In this work, we address the challenge of evaluating large language models (LLMs) on the short answer matching task for Latvian and Lithuanian languages. We introduce novel datasets consisting of 502 Latvian and 690 Lithuanian question-answer pairs. For each question-answer pair, we generated matched and non-matched answers using a set of alteration rules specifically designed to introduce small but meaningful changes in the text. These generated answers serve as test cases to assess the ability of LLMs to detect subtle differences in matching of the original answers. A subset of the datasets was manually verified for quality and accuracy. Our results show that while larger LLMs, such as QWEN2.5 72b and LLaMa3.1 70b, demonstrate near-perfect performance in distinguishing matched and non-matched answers, smaller models show more variance. For instance, LLaMa3.1 8b and EuroLLM 9b benefited from few-shot examples, while Mistral Nemo 12b underperformed on detection of subtle text alteration, particularly in Lithuanian, even with additional examples. QWEN2.5 7b and Mistral 7b were able to obtain a strong and comparable performance to the larger 70b models in zero and few shot experiments. Moreover, the performance of Mistral 7b was weaker in few shot experiments.
- Abstract(参考訳): 本研究では,ラトビア語とリトアニア語の短解マッチングタスクにおいて,大規模言語モデル(LLM)を評価することの課題に対処する。
ラトビア語502組とリトアニア語690組からなる新しいデータセットを導入する。
質問と回答のペアごとに、テキストに小さなが意味のある変更を導入するために特別に設計された変更ルールのセットを使用して、マッチングされた回答と非マッチングされた回答を生成しました。
これらの回答は、LLMが元の回答のマッチングの微妙な違いを検出する能力を評価するためのテストケースとして機能する。
データセットのサブセットは、品質と正確性のために手作業で検証された。
その結果,QWEN2.5 72b や LLaMa3.1 70b のようなより大きな LLM は一致解と非一致解の区別においてほぼ完璧な性能を示したが,より小さなモデルはよりばらつきを示した。
例えば、LLaMa3.1 8b と EuroLLM 9b は少数例の恩恵を受け、Mistral Nemo 12b はリトアニアで特に追加例でも微妙なテキスト修正の検出では性能が劣った。
QWEN2.5 7b と Mistral 7b は、より大型の70bモデルとゼロで同等の性能を得ることができた。
さらに、ミストラル7bの性能は、数回の発射実験では弱かった。
関連論文リスト
- On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - I've got the "Answer"! Interpretation of LLMs Hidden States in Question Answering [0.0]
本稿では,知識に基づく質問応答の文脈における大規模言語モデル(LLM)の解釈について検討する。
この研究の主な仮説は、正誤モデル行動は隠れた状態のレベルで区別できるというものである。
論文 参考訳(メタデータ) (2024-06-04T07:43:12Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting [0.6675160100853794]
我々は,高度に構成された高次マルチモーダル物理問題を含む新しいデータセットMM-PhyQAをキュレートした。
GPT-4を用いたゼロショット予測とLLaVA(LLaVAとLLaVA-1.5)を用いて,マルチモーダル入力からなる質問に対する回答を生成する。
テキスト入力のみからなるLLMの性能を評価するため,Mistral-7BおよびLLaMA2-7bモデルのベースおよび微調整版の性能試験を行った。
論文 参考訳(メタデータ) (2024-04-11T07:11:47Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。