論文の概要: The Self-Execution Benchmark: Measuring LLMs' Attempts to Overcome Their Lack of Self-Execution
- arxiv url: http://arxiv.org/abs/2508.12277v1
- Date: Sun, 17 Aug 2025 07:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.654116
- Title: The Self-Execution Benchmark: Measuring LLMs' Attempts to Overcome Their Lack of Self-Execution
- Title(参考訳): 自己実行ベンチマーク:LLMの自己実行の欠如を克服する試みを計測する
- Authors: Elon Ezra, Ariel Weizman, Amos Azaria,
- Abstract要約: 大規模言語モデル(LLM)は、知識や推論能力をテストするタスクで一般的に評価される。
本稿では、モデルが出力の特性を予測できる能力を測定するセルフ実行ベンチマークを紹介する。
私たちの実験では、モデルが一般的にこのベンチマークではパフォーマンスが悪く、モデルのサイズや能力が向上しても、常にパフォーマンスが向上するとは限らないことが示されています。
- 参考スコア(独自算出の注目度): 13.62116438805314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are commonly evaluated on tasks that test their knowledge or reasoning abilities. In this paper, we explore a different type of evaluation: whether an LLM can predict aspects of its own responses. Since LLMs lack the ability to execute themselves, we introduce the Self-Execution Benchmark, which measures a model's ability to anticipate properties of its output, such as whether a question will be difficult for it, whether it will refuse to answer, or what kinds of associations it is likely to produce. Our experiments show that models generally perform poorly on this benchmark, and that increased model size or capability does not consistently lead to better performance. These results suggest a fundamental limitation in how LLMs represent and reason about their own behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識や推論能力をテストするタスクで一般的に評価される。
本稿では,LLMが自身の応答の側面を予測できるかどうかという,異なるタイプの評価方法を検討する。
LLMには自己実行能力がないため、モデルが出力の特性を予測できる能力を測定するセルフ実行ベンチマーク(Self-Execution Benchmark)を導入する。
私たちの実験では、モデルが一般的にこのベンチマークではパフォーマンスが悪く、モデルのサイズや能力が向上しても、常にパフォーマンスが向上するとは限らないことが示されています。
これらの結果は、LLMが自身の行動をどのように表現し、推論するかに根本的な制限があることを示唆している。
関連論文リスト
- CARL-GT: Evaluating Causal Reasoning Capabilities of Large Language Models [18.975064947089805]
因果推論能力は、教育や医療といった幅広い応用において、大きな言語モデル(LLM)にとって不可欠である。
グラフとタブラリデータを用いた大規模言語モデルのCAusal Reasoning機能を評価するCARL-GTというベンチマークを提供する。
論文 参考訳(メタデータ) (2024-12-23T20:34:32Z) - SELF-[IN]CORRECT: LLMs Struggle with Discriminating Self-Generated Responses [49.148206387394936]
モデルでは、初期応答を生成するよりも、以前に生成した代替品間での識別性が確実に向上しないことが示される。
この発見は LLM が自身の判断によってのみ性能を向上させることができるという概念に挑戦する。
論文 参考訳(メタデータ) (2024-04-04T20:27:37Z) - LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。
LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。
しかし、この評価手法の堅牢性に関する懸念は続いている。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。