論文の概要: On the Brittleness of LLMs: A Journey around Set Membership
- arxiv url: http://arxiv.org/abs/2511.12728v1
- Date: Sun, 16 Nov 2025 18:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.504954
- Title: On the Brittleness of LLMs: A Journey around Set Membership
- Title(参考訳): LLMの脆さについて:セットメンバーシップをめぐる旅
- Authors: Lea Hergert, Gábor Berend, Mario Szegedy, Gyorgy Turan, Márk Jelasity,
- Abstract要約: 「Appleは、pear、 plum、 apple、raspberryの要素なのだろうか?」
我々は,素早い言い回し,意味構造,要素順序,モデル選択にまたがる系統的な経験的評価を行う。
我々の大規模解析により,この基本課題におけるLCMの性能は安定して不安定であり,全ての次元にわたって予測不可能であることが明らかとなった。
- 参考スコア(独自算出の注目度): 10.360842884252245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve superhuman performance on complex reasoning tasks, yet often fail on much simpler problems, raising concerns about their reliability and interpretability. We investigate this paradox through a focused study with two key design features: simplicity, to expose basic failure modes, and scale, to enable comprehensive controlled experiments. We focus on set membership queries -- among the most fundamental forms of reasoning -- using tasks like ``Is apple an element of the set \{pear, plum, apple, raspberry\}?''. We conduct a systematic empirical evaluation across prompt phrasing, semantic structure, element ordering, and model choice. Our large-scale analysis reveals that LLM performance on this elementary task is consistently brittle, and unpredictable across all dimensions, suggesting that the models' ``understanding'' of the set concept is fragmented and convoluted at best. Our work demonstrates that the large-scale experiments enabled by the simplicity of the problem allow us to map and analyze the failure modes comprehensively, making this approach a valuable methodology for LLM evaluation in general.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて超人的性能を達成するが、しばしばより単純な問題で失敗し、信頼性と解釈可能性に関する懸念を引き起こす。
このパラドックスは、単純さ、基本的な障害モードの公開、スケールの2つの主要な設計特徴と、包括的な制御された実験を可能にするための集中的な研究を通して検討する。
Is apple an element of the set \{pear, plum, apple, raspberry\}?'のようなタスクを使います。
我々は,素早い言い回し,意味構造,要素順序,モデル選択にまたがる系統的な経験的評価を行う。
我々の大規模分析では、この基本課題におけるLLMの性能は一貫して不安定であり、全ての次元にわたって予測不可能であることを示し、モデルが設定された概念の 'understanding'' が断片化され、最もよく説明されていることを示唆している。
我々の研究は、問題の単純さによって実現された大規模な実験により、障害モードを網羅的にマッピングおよび解析することが可能であることを示し、このアプローチは一般的にLLM評価のための貴重な方法論である。
関連論文リスト
- Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - ReflecSched: Solving Dynamic Flexible Job-Shop Scheduling via LLM-Powered Hierarchical Reflection [4.101501114944147]
ReflecSchedは、直接スケジューラ以上の LLM を強化するフレームワークである。
複数の計画地平線にまたがるシミュレーションを、簡潔で自然言語の要約に蒸留する。
この要約は、最終的な意思決定モジュールのプロンプトに統合され、非ミオピックアクションを生成するためのガイドとなる。
論文 参考訳(メタデータ) (2025-08-03T11:26:35Z) - SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。
知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-09T08:52:27Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。
以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:53Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。