Fugu-MT 論文翻訳(概要): SortBench: Benchmarking LLMs based on their ability to sort lists

論文の概要: SortBench: Benchmarking LLMs based on their ability to sort lists

arxiv url: http://arxiv.org/abs/2504.08312v1
Date: Fri, 11 Apr 2025 07:29:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-21 20:55:20.844507
Title: SortBench: Benchmarking LLMs based on their ability to sort lists
Title（参考訳）: SortBench: リストのソート機能に基づいたLLMのベンチマーク
Authors: Steffen Herbold,
Abstract要約: 本稿では,Large Language Models (LLM) のための SortBench ベンチマークについて述べる。このベンチマークを、現在のテスト時間推論モデルを含む、最先端の7つのLLMに適用する。その結果,テストタイム推論は性能劣化につながる問題を克服する傾向にあることがわかった。
参考スコア（独自算出の注目度）: 5.176134438571082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sorting is a tedious but simple task for human intelligence and can be solved fairly easily algorithmically. However, for Large Language Models (LLMs) this task is surprisingly hard, as some properties of sorting are among known weaknesses of LLMs: being faithful to the input data, logical comparisons between values, and strictly differentiating between syntax (used for sorting) and semantics (typically learned by embeddings). Within this paper, we describe the new SortBench benchmark for LLMs that comes with different difficulties and that can be easily scaled in terms of difficulty. We apply this benchmark to seven state-of-the-art LLMs, including current test-time reasoning models. Our results show that while the o3-mini model is very capable at sorting in general, even this can be fooled if strings are defined to mix syntactical and semantical aspects, e.g., by asking to sort numbers written-out as word. Furthermore, all models have problems with the faithfulness to the input of long lists, i.e., they drop items and add new ones. Our results also show that test-time reasoning has a tendency to overthink problems which leads to performance degradation. Finally, models without test-time reasoning like GPT-4o are not much worse than reasoning models.
Abstract（参考訳）: ソーティングは、人間の知性にとって退屈だが簡単なタスクであり、かなり簡単にアルゴリズムで解ける。しかし、Large Language Models (LLM) では、このタスクは驚くほど困難であり、ソートの特徴は、入力データに忠実であること、値間の論理的比較、構文(ソートに使用される)とセマンティクス(通常は埋め込みによって学習される)の厳密な差別化である。本稿では, LLM に対する新しい SortBench ベンチマークについて述べる。このベンチマークを、現在のテスト時間推論モデルを含む、最先端の7つのLLMに適用する。以上の結果から,o3-miniモデルは概してソートできるが,文字列が構文的・意味的側面を混合するために定義されている場合であっても,単語として記述された数値をソートするように要求することで,これを騙すことができることがわかった。さらに、全てのモデルは長いリストの入力に対する忠実さ、すなわちアイテムをドロップして新しいものを追加することに問題がある。また,テストタイム推論では,性能劣化につながる問題を克服する傾向が示唆された。最後に、GPT-4oのようなテストタイム推論のないモデルは、推論モデルほど悪くはない。

関連論文リスト

Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
Revisiting Word Embeddings in the LLM Era [0.2999888908665658]
大規模言語モデル(LLM)は、最近、様々なNLPタスクにおいて顕著な進歩を見せている。従来の非コンテクスト化単語と文脈化単語の埋め込みをLLMによる埋め込みで比較した。以上の結果から,LLMは意味的関連語をより緊密にクラスタ化し,非文脈化設定における類似処理をより良く行うことが示唆された。
論文参考訳（メタデータ） (2025-02-26T22:45:08Z)
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。 2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。 19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文参考訳（メタデータ） (2025-02-16T06:19:37Z)
MLissard: Multilingual Long and Simple Sequential Reasoning Benchmarks [10.39816548971042]
言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。 MLissardは、様々な長さのテキストを処理および生成するモデルの能力を評価するために設計されたベンチマークである。
論文参考訳（メタデータ） (2024-10-08T21:59:31Z)
LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking [17.96316956366718]
大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。 LLMベースのランキングフレームワークであるLLM-RankFusionを提案する。
論文参考訳（メタデータ） (2024-05-31T23:29:42Z)
Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文参考訳（メタデータ） (2024-02-17T00:09:32Z)
Revisiting Word Embeddings in the LLM Era [5.122866382023337]
大規模言語モデル(LLM)は、最近、様々なNLPタスクにおいて顕著な進歩を見せている。従来の非コンテクスト化単語と文脈化単語の埋め込みをLLMによる埋め込みで比較した。以上の結果から,LLMは意味的関連語をより緊密にクラスタ化し,非文脈化設定における類似処理をより良く行うことが示唆された。
論文参考訳（メタデータ） (2024-02-16T21:47:30Z)
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文参考訳（メタデータ） (2024-01-28T06:50:10Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Learning to Hash Naturally Sorts [84.90210592082829]
そこで我々はNaturely-Sorted Hashing (NSH)を導入し,最終結果のソートによる深層ハッシュモデルのトレーニングを行った。 NSHはサンプルのハッシュコードのハミング距離をソートし、それに従って自己教師付きトレーニングのための潜伏した表現を収集する。 Sorted Noise-Contrastive Estimation (SortedNCE) の新たな損失について述べる。
論文参考訳（メタデータ） (2022-01-31T16:19:02Z)
Online Learning of Optimally Diverse Rankings [63.62764375279861]
ユーザのフィードバックのみに基づいて最適なリストを効率よく学習するアルゴリズムを提案する。我々は、$T$クエリの後に、LDRの後悔は$O((N-L)log(T))$としてスケールする。
論文参考訳（メタデータ） (2021-09-13T12:13:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。