論文の概要: Does Self-Consistency Improve the Recall of Encyclopedic Knowledge?
- arxiv url: http://arxiv.org/abs/2604.19395v1
- Date: Tue, 21 Apr 2026 12:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.759646
- Title: Does Self-Consistency Improve the Recall of Encyclopedic Knowledge?
- Title(参考訳): 自己整合性は百科事典的知識の再コールを改善するか?
- Authors: Sho Hoshino, Ukyo Honda, Peinan Zhang,
- Abstract要約: 自己整合性はシンボリック推論とナレッジリコールの両方でパフォーマンスを継続的に改善する。
GPT-4oを用いることで,これまでで最高の性能であるMMLUの精度を89%向上させる。
- 参考スコア(独自算出の注目度): 11.666336585680265
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While self-consistency is known to improve performance on symbolic reasoning, its effect on the recall of encyclopedic knowledge is unclear due to a lack of targeted evaluation grounds. To address this, we establish such a knowledge recall split for the popular MMLU benchmark by applying a data-driven heuristic from prior work. We validate this split by showing that the performance patterns on the symbolic reasoning and knowledge recall subsets mirror those of GSM8K and MedMCQA, respectively. Using this solid ground, we find that self-consistency consistently improves performance across both symbolic reasoning and knowledge recall, even though its underlying CoT prompting is primarily effective for symbolic reasoning. As a result, we achieve an 89\% accuracy on MMLU, the best performance to date with the use of GPT-4o.
- Abstract(参考訳): 自己整合性はシンボリック推論の性能を向上させることが知られているが,その評価基準が欠如していることから,百科事典的知識のリコールに対する効果は明らかでない。
そこで本研究では,データ駆動型ヒューリスティックを先行作業から適用することにより,MMLUベンチマークの知識リコール分割を実現する。
本稿では, GSM8K と MedMCQA のパフォーマンスパターンが, それぞれ GSM8K と MedMCQA を反映していることを示すことによって, この分割を検証した。
このソリッドグラウンドを用いて、CoTプロンプトが主にシンボリック推論に有効であるにもかかわらず、自己整合性はシンボリック推論とナレッジリコールの両方におけるパフォーマンスを一貫して改善することを発見した。
その結果, GPT-4o を用いて MMLU の精度を 89 % 向上させることができた。
関連論文リスト
- Beyond Accuracy: Introducing a Symbolic-Mechanistic Approach to Interpretable Evaluation [8.169425244574203]
タスク関連シンボリックルールと解釈可能性を組み合わせたメカニズム認識評価について論じる。
標準的な評価では、暗記は見えないデータに対して94%のフィールド名精度を達成し、誤った能力を示している。
我々のシンボリック・スティック評価は、このモデルがコアスキーマの一般化ルールに違反していることを明らかにしている。
論文 参考訳(メタデータ) (2026-03-06T03:50:59Z) - REMem: Reasoning with Episodic Memory in Language Agent [32.63834745610879]
エピソードメモリを用いた構築と推論のためのフレームワークであるREMemについて述べる。
我々はREMemがMem0やHippoRAG 2のような時空間記憶システムよりも大幅に優れていることを示す。
REMemはまた、答えられない質問に対してより堅牢な拒絶行動を示す。
論文 参考訳(メタデータ) (2026-02-13T23:54:55Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。
パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文 参考訳(メタデータ) (2025-09-23T15:32:47Z) - FRIT: Using Causal Importance to Improve Chain-of-Thought Faithfulness [7.721663297811698]
CoT(Chain-of- Thought)推論は,複雑なタスクにおける大規模言語モデルのパフォーマンス向上のための強力なツールとして登場した。
最近の研究は、推論ステップが最終回答に因果的に影響を与えず、不安定で信頼できないアウトプットを生み出していることを示している。
本稿では、因果一貫性のある推論を生成するためにモデルをトレーニングするスケーラブルなアライメント手法であるFhithful Reasoning via Intervention Training (FRIT)を紹介する。
論文 参考訳(メタデータ) (2025-09-10T07:07:17Z) - Retrieving Classes of Causal Orders with Inconsistent Knowledge Bases [0.8192907805418583]
大規模言語モデル(LLM)は、テキストベースのメタデータから因果的知識を抽出するための有望な代替手段として登場した。
LLMは信頼できない傾向があり、幻覚を起こす傾向があり、その限界を考慮に入れた戦略を必要とする。
本稿では,非循環型トーナメントのクラスを導出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T16:37:51Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。