論文の概要: ACCORD: Closing the Commonsense Measurability Gap
- arxiv url: http://arxiv.org/abs/2406.02804v2
- Date: Thu, 06 Feb 2025 19:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:54:46.946985
- Title: ACCORD: Closing the Commonsense Measurability Gap
- Title(参考訳): ACCORD:Commonsense Measurability Gapの閉鎖
- Authors: François Roewer-Després, Jinyue Feng, Zining Zhu, Frank Rudzicz,
- Abstract要約: ACCORDは、大規模言語モデル(LLM)の共通理解基盤と推論能力の分離のためのフレームワークである
形式的要素をコモンセンス推論に導入し、典型的な 1 または 2 ホップを超えて、推論の複雑さを明示的に制御し、定量化する。
任意の推論複雑性のベンチマークを自動的に生成するので、将来のLLMの改善に合わせてスケールすることができる。
- 参考スコア(独自算出の注目度): 16.572584339052753
- License:
- Abstract: We present ACCORD, a framework and benchmark suite for disentangling the commonsense grounding and reasoning abilities of large language models (LLMs) through controlled, multi-hop counterfactuals. ACCORD introduces formal elements to commonsense reasoning to explicitly control and quantify reasoning complexity beyond the typical 1 or 2 hops. Uniquely, ACCORD can automatically generate benchmarks of arbitrary reasoning complexity, and so it scales with future LLM improvements. Benchmarking state-of-the-art LLMs -- including GPT-4o (2024-05-13), Llama-3-70B-Instruct, and Mixtral-8x22B-Instruct-v0.1 -- shows performance degrading to random chance with only moderate scaling, leaving substantial headroom for improvement. We release a leaderboard of the benchmark suite tested in this work, as well as code for automatically generating more complex benchmarks.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の共通理解基盤と推論能力を,制御されたマルチホップ・カウンティファクトを通じて拡張するフレームワークとベンチマークスイートであるACCORDを提案する。
ACCORDはコモンセンス推論に形式的要素を導入し、典型的な 1 または 2 ホップを超えて、推論の複雑さを明示的に制御し、定量化する。
ACCORDは任意の推論複雑性のベンチマークを自動的に生成するので、将来のLCMの改善とともにスケールする。
GPT-4o (2024-05-13)、Llama-3-70B-Instruct、Mixtral-8x22B-Instruct-v0.1など、最先端のLCMのベンチマークでは、パフォーマンスが適度なスケーリングだけでランダムな確率に低下し、改善のための実質的なヘッドルームが残されている。
この作業でテストされたベンチマークスイートのリーダボードと,さらに複雑なベンチマークを自動的に生成するコードをリリースしています。
関連論文リスト
- EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。
EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。
その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon [11.753349115726952]
大規模言語モデル(LLM)は、しばしば公開ベンチマークで優れているように見えるが、これらの高いスコアはデータセット固有のサーフェスキューへの過度な依存を隠蔽する可能性がある。
本稿では,ベンチマークプロンプトを歪ませるメタ評価フレームワークであるChameleon Benchmark Overfit Detector (C-BOD)を紹介する。
セマンティックコンテンツやラベルを保存しながら入力をリフレッシュすることで、C-BODはモデルのパフォーマンスが記憶パターンによって駆動されるかどうかを明らかにする。
論文 参考訳(メタデータ) (2025-02-11T10:43:36Z) - TOPLOC: A Locality Sensitive Hashing Scheme for Trustless Verifiable Inference [0.0]
大規模言語モデル(LLM)は非常に有能であることが証明されているが、現在の最高のモデルへのアクセスは、信頼の難しさをもたらす推論プロバイダに依存している。
本研究では,この問題に対処する検証可能な新しい手法であるTOPLOCを提案する。
論文 参考訳(メタデータ) (2025-01-27T12:46:45Z) - Leaving the barn door open for Clever Hans: Simple features predict LLM benchmark answers [10.786564839628952]
AIベンチマークの内部的妥当性は、要因の相違のないことを保証するために不可欠である。
我々は、AIシステムが意図しない方法でベンチマークを解決し、テスト対象の能力を回避できる可能性を調査する。
論文 参考訳(メタデータ) (2024-10-15T15:05:41Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。