論文の概要: Orthographic Constraint Satisfaction and Human Difficulty Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.21086v1
- Date: Wed, 26 Nov 2025 06:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.982772
- Title: Orthographic Constraint Satisfaction and Human Difficulty Alignment in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるorthographic Constraint Satisfactionと人間難易度アライメント
- Authors: Bryan E. Tuck, Rakesh M. Verma,
- Abstract要約: 大規模な言語モデルは、制御されたテキスト生成中に厳密な正書法制約を満たす必要がある。
人格レベルの制約満足度を必要とする58の単語パズルに対して、3つのモデルファミリーにまたがる28の構成を評価した。
- 参考スコア(独自算出の注目度): 2.3991974633684854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models must satisfy hard orthographic constraints during controlled text generation, yet systematic cross-architecture evaluation remains limited. We evaluate 28 configurations spanning three model families (Qwen3, Claude Haiku-4.5, GPT-5-mini) on 58 word puzzles requiring character-level constraint satisfaction. Architectural differences produce substantially larger performance gaps (2.0-2.2x, F1=0.761 vs. 0.343) than parameter scaling within families (83% gain from eightfold scaling), suggesting that constraint satisfaction may require specialized architectural features or training objectives beyond standard language model scaling. Thinking budget sensitivity proves heterogeneous: high-capacity models show strong returns (+0.102 to +0.136 F1), while mid-sized variants saturate or degrade. These patterns are inconsistent with uniform compute benefits. Using difficulty ratings from 10,000 human solvers per puzzle, we establish modest but consistent calibration (r=0.24-0.38) across all families, yet identify systematic failures on common words with unusual orthography ("data", "poop", "loll": 86-95% human success, 89-96% model miss rate). These failures reveal over-reliance on distributional plausibility that penalizes orthographically atypical but constraint-valid patterns, suggesting architectural innovations may be required beyond simply scaling parameters or computational budgets.
- Abstract(参考訳): 大規模な言語モデルは、制御されたテキスト生成中に厳密な正書法制約を満たす必要があるが、体系的なクロスアーキテクチャ評価は依然として限られている。
本研究では,3つのモデルファミリー(Qwen3,Claude Haiku-4.5,GPT-5-mini)にまたがる28の構成を,文字レベルの制約満足度を必要とする58の単語パズルに対して評価した。
アーキテクチャ上の違いは、ファミリー内のパラメータスケーリング(83%は8倍のスケーリングから得ている)よりもはるかに大きなパフォーマンスギャップ(2.0-2.2x, F1=0.761 vs. 0.343)を生み出し、制約満足度は、標準言語モデルのスケーリングを超える特別なアーキテクチャ的特徴やトレーニング目標を必要とする可能性があることを示唆している。
高容量モデルは強いリターン(+0.102から+0.136 F1)を示し、中型の変種は飽和または劣化している。
これらのパターンは、一様計算の利点と矛盾する。
1パズル当たりの1万人の解答者からの難易度評価を用いて、全ての家庭で適度だが一貫した校正(r=0.24-0.38)を確立し、異常な正書法で一般的な単語の体系的な失敗を識別する("data", "poop", "loll": 86-95%の人的成功、89-96%のモデルミス率)。
これらの失敗は、正書法的に非典型的であるが制約値のパターンを罰する分布的可算性への過度な信頼を示し、単にパラメータや計算予算をスケーリングする以上のアーキテクチャ上の革新が必要であることを示唆している。
関連論文リスト
- Capability Ceilings in Autoregressive Language Models: Empirical Evidence from Knowledge-Intensive Tasks [0.2538209532048866]
知識集約型タスクにおけるデコーダのみの自己回帰言語モデルにおける機能天井の文書化を行う。
我々は、OPTおよびPythiaモデルファミリーの能力特異的スケーリング障害を定量化し、リソース割り当て決定を通知する。
論文 参考訳(メタデータ) (2025-10-23T11:09:31Z) - Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - BeyondBench: Benchmark-Free Evaluation of Reasoning in Language Models [13.380359214677176]
インターネット規模のトレーニングデータから汚染を避けるための評価フレームワークであるBeyondBenchを紹介する。
本フレームワークでは,44のアルゴリズムタスクを117のバリエーションでカバーし,3つの難易度に分類する。
85のオープンソースモデルと16のクローズドソースモデルを含む101の言語モデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T02:49:01Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。
これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。
提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文 参考訳(メタデータ) (2024-09-04T16:47:16Z) - Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。
CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。
すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文 参考訳(メタデータ) (2024-07-13T07:31:43Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - (Un)solving Morphological Inflection: Lemma Overlap Artificially
Inflates Models' Performance [7.2223831790495625]
本稿では, より厳密な列車-試験分割を用いて, 形態的インフレクションモデルの再評価を提案する。
SIGMORPHONの2020年のシェアリングタスクにおける上位3つのシステムによる実験では、レムマスプリットは平均30ポイントの低下を示している。
論文 参考訳(メタデータ) (2021-08-12T12:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。