論文の概要: $\texttt{ACCORD}$: Closing the Commonsense Measurability Gap
- arxiv url: http://arxiv.org/abs/2406.02804v1
- Date: Tue, 4 Jun 2024 22:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 22:37:23.692873
- Title: $\texttt{ACCORD}$: Closing the Commonsense Measurability Gap
- Title(参考訳): $\texttt{ACCORD}$: Commonsense Measurability Gapのクローン
- Authors: François Roewer-Després, Jinyue Feng, Zining Zhu, Frank Rudzicz,
- Abstract要約: $texttACCORD$は、大きな言語モデルの常識的な基礎化と推論能力を切り離すためのフレームワークである。
$texttACCORD$は任意の推論複雑性のベンチマークを自動的に生成できる。
- 参考スコア(独自算出の注目度): 16.572584339052753
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present $\texttt{ACCORD}$, a framework and benchmark suite for disentangling the commonsense grounding and reasoning abilities of large language models (LLMs) through controlled, multi-hop counterfactuals. $\texttt{ACCORD}$ introduces formal elements to commonsense reasoning to explicitly control and quantify reasoning complexity beyond the typical 1 or 2 hops. Uniquely, $\texttt{ACCORD}$ can automatically generate benchmarks of arbitrary reasoning complexity, and so it scales with future LLM improvements. Benchmarking state-of-the-art LLMs -- including GPT-4o (2024-05-13), Llama-3-70B-Instruct, and Mixtral-8x22B-Instruct-v0.1 -- shows performance degrading to random chance with only moderate scaling, leaving substantial headroom for improvement. We release a leaderboard of the benchmark suite tested in this work, as well as code for automatically generating more complex benchmarks.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)の共通理解基盤と推論能力を,制御されたマルチホップ・カウンティファクトを通じて拡張するフレームワークとベンチマークスイートである$\texttt{ACCORD}$を提示する。
$\texttt{ACCORD}$ は、通常の 1 または 2 ホップを超えて、推論の複雑さを明示的に制御し、定量化するために、コモンセンス推論に形式的要素を導入する。
ユニークなのは、$\texttt{ACCORD}$は任意の推論複雑性のベンチマークを自動的に生成できるため、将来のLCMの改善とスケールする。
GPT-4o (2024-05-13)、Llama-3-70B-Instruct、Mixtral-8x22B-Instruct-v0.1など、最先端のLLMのベンチマークでは、パフォーマンスが適度なスケーリングだけでランダムな確率に低下し、改善のための実質的なヘッドルームが残されている。
この作業でテストされたベンチマークスイートのリーダボードと,さらに複雑なベンチマークを自動的に生成するコードをリリースしています。
関連論文リスト
- $\texttt{metabench}$ -- A Sparse Benchmark to Measure General Ability in Large Language Models [5.972993094932516]
大きな言語モデル(LLM)は、様々なタスクでその能力が異なる。
これらのベンチマークを測る共通基盤能力の小さなセットがあることが示される。
スパースベンチマークである$textttmetabench$を蒸留します。
論文 参考訳(メタデータ) (2024-07-04T17:57:38Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
たとえば、$textitO$2(未使用のスケーラビリティ)については、$G_textstack$はスケーラブルで、一貫してパフォーマンスが良いことを示す。
さらに、$G_textstack$に対する成長タイミングと成長係数を決定するガイドラインを定式化することで、$textitO$3(経験的ガイドラインの欠如)に対処する。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Comparing Plausibility Estimates in Base and Instruction-Tuned Large Language Models [50.15455336684986]
本研究では,英語文の可読性タスクにおいて,暗黙的プロンプトと暗黙的推定を用いて,ベースおよび命令調整型LLMの性能を比較した。
実験1では、モデルアーキテクチャと可視性データセットを通して、ログ可能性(textitLL$)スコアが文の可視性を示す最も信頼性の高い指標であることが示されている。
実験2では、モデル間の$textitLL$スコアが、期待される方法でコンテキストによって変調されることを示し、コンテキストに敏感な3つのメトリクスで高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - VerMCTS: Synthesizing Multi-Step Programs using a Verifier, a Large Language Model, and Tree Search [5.389248707675898]
大型言語モデル(LLM)は有用なコードを生成することができるが、しばしばそれらが生成するコードは信頼できない。
本稿では,Dafny と Coq で検証プログラムを生成することで,この問題を解決するための VerMCTS を提案する。
論文 参考訳(メタデータ) (2024-02-13T00:55:14Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - Generative Calibration for In-context Learning [20.207930451266822]
本稿では,このようなパラドックスが主にコンテキスト内モデルからデータ分布へのラベルシフトによるものであることを示す。
この理解により、ラベルの辺りを調整してコンテキスト内予測分布を調整できる。
我々は,本手法を生成的キャリブレーション(generative calibration)と呼び,12のテキスト分類タスクと12のLLMを774Mから33Bに拡張した徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-10-16T10:45:02Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。