論文の概要: $\forall$uto$\exists$$\lor\!\land$L: Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2410.08437v1
- Date: Fri, 11 Oct 2024 00:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:16:22.987373
- Title: $\forall$uto$\exists$$\lor\!\land$L: Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks
- Title(参考訳): $\forall$uto$\exists$$\lor\!
- Authors: Rushang Karia, Daniel Bramblett, Daksh Dobhal, Siddharth Srivastava,
- Abstract要約: $forall$uto$exists$$$lor!land$Lは、大言語モデル(LLM)を評価するための新しいベンチマークである。
- 参考スコア(独自算出の注目度): 20.072783454089098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents $\forall$uto$\exists$$\lor\!\land$L, a novel benchmark for scaling Large Language Model (LLM) assessment in formal tasks with clear notions of correctness, such as truth maintenance in translation and logical reasoning. $\forall$uto$\exists$$\lor\!\land$L is the first benchmarking paradigm that offers several key advantages necessary for scaling objective evaluation of LLMs without human labeling: (a) ability to evaluate LLMs of increasing sophistication by auto-generating tasks at different levels of difficulty; (b) auto-generation of ground truth that eliminates dependence on expensive and time-consuming human annotation; (c) the use of automatically generated, randomized datasets that mitigate the ability of successive LLMs to overfit to static datasets used in many contemporary benchmarks. Empirical analysis shows that an LLM's performance on $\forall$uto$\exists$$\lor\!\land$L is highly indicative of its performance on a diverse array of other benchmarks focusing on translation and reasoning tasks, making it a valuable autonomous evaluation paradigm in settings where hand-curated datasets can be hard to obtain and/or update.
- Abstract(参考訳): 本稿では,$\forall$uto$\exists$$\lor\!
\land$Lは、翻訳における真理維持や論理的推論など、正確性を明確に定義したフォーマルなタスクにおいて、LLM(Large Language Model)アセスメントをスケールするための新しいベンチマークである。
$\forall$uto$\exists$$\lor\!
最初のベンチマークパラダイムである \land$L は、人間のラベルなしで LLM の客観的評価をスケールするのに必要ないくつかの重要な利点を提供する。
(a)難易度の異なるタスクの自動生成による高度化のLLMを評価する能力
ロ 費用及び時間のかかる人的注釈への依存を排除した地底真理の自動生成
(c) 自動生成されたランダム化されたデータセットを使用することで、多くの現代的なベンチマークで使用される静的データセットに過度に適合する連続LLMの能力を緩和する。
実証分析によると、LLMのパフォーマンスは$\forall$uto$\exists$$\lor\!
\land$Lは、翻訳と推論タスクに重点を置くさまざまなベンチマークのパフォーマンスを高く評価しているため、手作業によるデータセットの取得や更新が困難になるような環境では、貴重な自律的な評価パラダイムとなっている。
関連論文リスト
- LLM-Assisted Relevance Assessments: When Should We Ask LLMs for Help? [18.663118865354427]
テストコレクションは、研究者がランキングアルゴリズムを迅速かつ容易に評価できる情報検索ツールである。
LLMアノテーションとマニュアルアノテーションのバランスをとるためにtextbfLLM-textbfAssisted textbfRelevance textbfAssessments (textbfLARA)を提案する。
論文 参考訳(メタデータ) (2024-11-11T11:17:35Z) - TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation [24.954629877691623]
TICK(Targeted Instruct-evaluation with ChecKlists)は、完全に自動化され、解釈可能な評価プロトコルである。
まず,LLMが高品質な評価チェックリストを確実に生成できることを示す。
次に、STICKは、自己精製とBest-of-N選択により、複数のベンチマークで生成品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:09:08Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Data-Centric Financial Large Language Models [27.464319154543173]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-07T04:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。