論文の概要: Evaluation Hallucination in Multi-Round Incomplete Information Lateral-Driven Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2505.23843v1
- Date: Wed, 28 May 2025 15:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.561198
- Title: Evaluation Hallucination in Multi-Round Incomplete Information Lateral-Driven Reasoning Tasks
- Title(参考訳): 多方向不完全情報の横方向推論タスクにおける評価幻覚
- Authors: Wenhan Dong, Tianyi Hu, Jingyi Zheng, Zhen Sun, Yuemeng Zhao, Yule Liu, Xinlei He, Xinyi Huang,
- Abstract要約: 本研究は,既存手法の限界に対する新たな知見を明らかにする。
本稿では,推論経路の検査,多変量評価指標,人的性能との比較分析など,一連の評価基準を提案する。
- 参考スコア(独自算出の注目度): 18.613353004764885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-round incomplete information tasks are crucial for evaluating the lateral thinking capabilities of large language models (LLMs). Currently, research primarily relies on multiple benchmarks and automated evaluation metrics to assess these abilities. However, our study reveals novel insights into the limitations of existing methods, as they often yield misleading results that fail to uncover key issues, such as shortcut-taking behaviors, rigid patterns, and premature task termination. These issues obscure the true reasoning capabilities of LLMs and undermine the reliability of evaluations. To address these limitations, we propose a refined set of evaluation standards, including inspection of reasoning paths, diversified assessment metrics, and comparative analyses with human performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の側方思考能力を評価するためには,多ラウンド不完全情報タスクが不可欠である。
現在、研究は主にこれらの能力を評価するために複数のベンチマークと自動評価指標に依存している。
しかし,本研究では,従来の手法の限界に対する新たな知見を明らかにし,ショートカット行動や厳格なパターン,未熟なタスク終了といった重要な問題を明らかにするのに失敗する誤解を招くことが多い。
これらの問題はLCMの真の推論能力を曖昧にし、評価の信頼性を損なう。
これらの制約に対処するために、推論経路の検査、多変量評価指標、人間のパフォーマンスとの比較分析など、一連の評価基準を提案する。
関連論文リスト
- LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Aspect-Guided Multi-Level Perturbation Analysis of Large Language Models in Automated Peer Review [36.05498398665352]
自動ピアレビューにおいて,大規模言語モデル(LLM)の堅牢性を評価するために,アスペクト誘導多段階摂動フレームワークを提案する。
我々のフレームワークは、ピアレビュープロセスペーパー、レビュー、そして、いくつかの品質面における反論の3つの重要な要素における摂動を探求する。
論文 参考訳(メタデータ) (2025-02-18T03:50:06Z) - A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations [35.12731651234186]
大規模言語モデル(LLM)は、その顕著な能力により、最近大きな注目を集めている。
我々はこれらの不整合や信頼できない評価を引き起こす主要な課題と限界を体系的にレビューする。
批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。
論文 参考訳(メタデータ) (2024-07-04T17:15:37Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。