Fugu-MT 論文翻訳(概要): In Case You Missed It: ARC 'Challenge' Is Not That Challenging

論文の概要: In Case You Missed It: ARC 'Challenge' Is Not That Challenging

arxiv url: http://arxiv.org/abs/2412.17758v1
Date: Mon, 23 Dec 2024 18:14:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.533908
Title: In Case You Missed It: ARC 'Challenge' Is Not That Challenging
Title（参考訳）: ARCの「Challenge」は「Challenging」ではない
Authors: Łukasz Borchmann,
Abstract要約: ARC Challengeは、現代のLLMではARC Easyよりも難しいように見える。同様の評価慣行が、他のベンチマークの赤字の原因を誤って示唆していることを示す。私たちは、複数の選択評価が実際のモデル能力を正確に反映することを保証するガイドラインを提供します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily due to an evaluation setup that prevents direct comparison of answer choices rather than inherent complexity. Although some researchers have quietly shifted to a more appropriate scheme over the last year, the implications of this change have yet to be widely acknowledged. We highlight this overlooked shift, show how similar evaluation practices falsely imply reasoning deficits in other benchmarks, and demonstrate that fairer methods dramatically reduce performance gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing so, we reveal how evaluation shapes perceived difficulty and offer guidelines to ensure that multiple-choice evaluations accurately reflect actual model capabilities.
Abstract（参考訳）: ARC Challenge は現在の LLM では ARC Easy よりも難しいように見える。昨年、一部の研究者は静かにより適切なスキームに移行したが、この変化の影響はまだ広く認められていない。我々は、この見過ごされたシフトを強調し、同様の評価手法が他のベンチマークの欠点を誤って引き起こしていることを示すとともに、より公平な手法がパフォーマンスギャップ(例えばSIQA)を劇的に減らし、超人的な結果(OpenBookQA)を産み出すことを示した。そこで我々は,評価が難易度をどう認識するかを明らかにするとともに,複数選択評価が実際のモデル能力を正確に反映することを保証するガイドラインを提供する。

関連論文リスト

Towards Lighter and Robust Evaluation for Retrieval Augmented Generation [1.631189594086952]
本稿では,RAG幻覚評価のためのオープンウェイトモデルの興味を示す研究を提案する。我々は、より小さく、量子化されたLCMを用いて、アクセス可能で解釈可能な計量を提供する軽量なアプローチを開発する。このスコアは、意思決定の信頼性に疑問を呈し、新しいAUCメトリクスを開発するためのしきい値を探ることを可能にする。
論文参考訳（メタデータ） (2025-03-20T13:58:32Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。このアプローチは、正しい答えが少数派である場合に失敗する。階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文参考訳（メタデータ） (2024-05-21T17:12:19Z)
RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners [38.30539869264287]
大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。新たなプロンプト手法である RankPrompt を導入し,LLM が追加リソースを必要とせずに応答を自己ランクできる手法を提案する。
論文参考訳（メタデータ） (2024-03-19T02:34:18Z)
Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文参考訳（メタデータ） (2023-07-06T14:42:01Z)
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文参考訳（メタデータ） (2023-04-23T13:54:39Z)
Recursive Causal Structure Learning in the Presence of Latent Variables and Selection Bias [27.06618125828978]
本稿では,潜伏変数と選択バイアスの存在下での観測データからシステムの因果MAGを学習する問題を考察する。本稿では,音と完全性を備えた計算効率のよい制約ベースの新しい手法を提案する。提案手法と人工と実世界の両方の構造に関する技術の現状を比較した実験結果を提供する。
論文参考訳（メタデータ） (2021-10-22T19:49:59Z)
An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文参考訳（メタデータ） (2021-08-15T15:05:02Z)
Unsupervised Learning of Debiased Representations with Pseudo-Attributes [85.5691102676175]
教師なし方式で,単純かつ効果的な脱バイアス手法を提案する。特徴埋め込み空間上でクラスタリングを行い、クラスタリング結果を利用して疑似属性を識別する。次に,非偏り表現を学習するために,クラスタベースの新しい重み付け手法を用いる。
論文参考訳（メタデータ） (2021-08-06T05:20:46Z)
DARTS-: Robustly Stepping out of Performance Collapse Without Indicators [74.21019737169675]
異なるアーキテクチャ検索は、長期にわたるパフォーマンスの不安定さに悩まされる。ヘッセン固有値のような指標は、性能が崩壊する前に探索を止める信号として提案される。本稿では,崩壊を解決するために,より微妙で直接的なアプローチをとる。
論文参考訳（メタデータ） (2020-09-02T12:54:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。