Fugu-MT 論文翻訳(概要): Large language models could be rote learners

論文の概要: Large language models could be rote learners

arxiv url: http://arxiv.org/abs/2504.08300v3
Date: Tue, 15 Apr 2025 03:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 06:16:22.880675
Title: Large language models could be rote learners
Title（参考訳）: 大規模言語モデルはロート学習者かもしれない
Authors: Yuyang Xu, Renjun Hu, Haochao Ying, Jian Wu, Xing Shi, Wei Lin,
Abstract要約: 大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)ベンチマークが広く使用されている。本研究では,汚染を学習の本質的な側面として再編成し,表層記憶からの真の能力獲得を抑えることを目的とする。本稿では,MCQを新たなトリニティ形式に再構成し,知識評価を維持しつつ記憶を減らし,新たな評価フレームワークであるTrinEvalを提案する。
参考スコア（独自算出の注目度）: 13.607635426273607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiple-choice question (MCQ) benchmarks are widely used for evaluating Large Language Models (LLMs), yet their reliability is undermined by benchmark contamination. In this study, we reframe contamination as an inherent aspect of learning and seek to disentangle genuine capability acquisition from superficial memorization in LLM evaluation. First, by analyzing model performance under different memorization conditions, we uncover a counterintuitive trend: LLMs perform worse on memorized MCQs than on non-memorized ones, indicating the coexistence of two distinct learning phenomena, i.e., rote memorization and genuine capability learning. To disentangle them, we propose TrinEval, a novel evaluation framework that reformulates MCQs into an alternative trinity format, reducing memorization while preserving knowledge assessment. Experiments validate TrinEval's effectiveness in reformulation, and its evaluation reveals that common LLMs may memorize by rote 20.5% of knowledge points (in MMLU on average).
Abstract（参考訳）: 大規模言語モデル(LLM)の評価にはMCQ(Multiple-choice question)ベンチマークが広く使用されているが、その信頼性はベンチマーク汚染によって損なわれている。本研究では,LLM評価において,汚染を学習の本質的な側面として再編成し,表層記憶からの真の能力獲得を抑えることを目的とした。まず, 異なる記憶条件下でのモデル性能を解析することにより, LLMは記憶されたMCQに対して, 非記憶されたMCQよりも優れており, ロート記憶と真の能力学習という2つの異なる学習現象が共存していることを示す。そこで我々は,MCQを新たなトリニティ形式に再構成し,知識評価を維持しつつ記憶を減らし,新たな評価フレームワークであるTrinEvalを提案する。実験により、TrinEvalの改革効果が検証され、その評価により、一般的なLLMは20.5%の知識ポイント(平均MMLU)を回転させることで記憶できることが示された。

関連論文リスト

LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文参考訳（メタデータ） (2025-07-30T03:50:46Z)
Pre-training Limited Memory Language Models with Internal and External Knowledge [33.43876534067786]
メモリ言語モデル(LMLM: Limited Memory Language Models)は,事前学習中に外部データベースに事実知識を外部化する言語モデルである。実験により, LMLM は標準ベンチマークにおいてかなり大きな LLM と比較して, 競争性能が向上することを示した。
論文参考訳（メタデータ） (2025-05-21T19:26:03Z)
ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳（メタデータ） (2024-12-11T11:38:11Z)
Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models [15.057992220389604]
言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
論文参考訳（メタデータ） (2024-06-18T05:11:35Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Do LLMs Dream of Ontologies? [13.776194387957617]
大規模モデル言語(LLM)は、様々な自然言語処理タスクにまたがる顕著な記憶を実証している。本稿では,LLMが公開リソースから概念識別子(ID)-ラベル関連を正しく再現する範囲について検討する。
論文参考訳（メタデータ） (2024-01-26T15:10:23Z)
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。 GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文参考訳（メタデータ） (2023-12-28T15:49:43Z)
EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文参考訳（メタデータ） (2023-10-23T21:15:54Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。