論文の概要: Semantic Content Determines Algorithmic Performance
- arxiv url: http://arxiv.org/abs/2601.21618v1
- Date: Thu, 29 Jan 2026 12:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.801694
- Title: Semantic Content Determines Algorithmic Performance
- Title(参考訳): セマンティックコンテンツがアルゴリズム性能を決定する
- Authors: Martiño Ríos-García, Nawaf Alampara, Kevin Maik Jablonka,
- Abstract要約: 独立して数えられるものをテストするためにWhatCountsを導入します。
WhatCountsはアトミックである: 重複、イントラクタ、異なるセマンティックタイプのための推論ステップのないリストにアイテムをカウントする。
いずれのLLM関数も、その入力の意味に隠れた依存関係を持つ可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.19043656221975455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counting should not depend on what is being counted; more generally, any algorithm's behavior should be invariant to the semantic content of its arguments. We introduce WhatCounts to test this property in isolation. Unlike prior work that conflates semantic sensitivity with reasoning complexity or prompt variation, WhatCounts is atomic: count items in an unambiguous, delimited list with no duplicates, distractors, or reasoning steps for different semantic types. Frontier LLMs show over 40% accuracy variation depending solely on what is being counted - cities versus chemicals, names versus symbols. Controlled ablations rule out confounds. The gap is semantic, and it shifts unpredictably with small amounts of unrelated fine-tuning. LLMs do not implement algorithms; they approximate them, and the approximation is argument-dependent. As we show with an agentic example, this has implications beyond counting: any LLM function may carry hidden dependencies on the meaning of its inputs.
- Abstract(参考訳): カウントはカウントされているものに依存してはならない;より一般的には、アルゴリズムの振舞いはその引数のセマンティックな内容に不変であるべきである。
このプロパティを独立してテストするためにWhatCountsを導入します。
WhatCountsは、推論の複雑さや急激なバリエーションとセマンティックな感受性を混同する以前の作業とは異なり、アトミックである: 重複、イントラクタ、異なるセマンティックタイプに対する推論ステップのない、曖昧で制限されたリストにアイテムをカウントする。
最前線のLCMでは、カウントされているもの(都市、化学物質、名前、シンボル)によって40%以上の精度のバリエーションが示されています。
制御されたアブレーションは欠点を排除します。
ギャップは意味があり、少数の無関係な微調整で予測不可能に変化する。
LLMはアルゴリズムを実装せず、近似し、近似は引数に依存している。
エージェント的な例で示すように、これはカウント以上の意味を持っている: どんなLLM関数も、その入力の意味に隠れた依存関係を持つ可能性がある。
関連論文リスト
- Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs [2.2574632480801484]
トークン化は,大規模言語モデル(LLM)をトレーニングする最初のステップである
本稿では,特定の LLM に対して与えられたテキストに対するトークン化ペナルティを計算し,トークン化がいかに「悪い」かを示すペナルティ関数セットを提案する。
論文 参考訳(メタデータ) (2025-12-26T09:16:33Z) - Measuring Scalar Constructs in Social Science with LLMs [48.92998035333579]
大規模言語モデルにおけるスカラー構造の測定手法の評価を行った。
LLMにスコアを直接出力させるよりも、ペアワイズ比較の方が優れた測定結果が得られることが分かりました。
訓練ペアを1,000個も持たない小型モデルは、誘導LDMの性能にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-09-03T08:19:13Z) - EquivPruner: Boosting Efficiency and Quality in LLM-Based Search via Action Pruning [40.506243479030104]
EquivPrunerは推論検索中に意味論的に等価なアクションを識別し、特定する。
数学的ステートメント同値性のための最初のデータセットであるMathEquivは、軽量な等価検出器のトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:07:43Z) - QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。
このフレームワークを使って$textbfQUDsim$を作ります。
QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文 参考訳(メタデータ) (2025-04-12T23:46:09Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Can We Count on LLMs? The Fixed-Effect Fallacy and Claims of GPT-4 Capabilities [8.1022073999821]
いくつかの決定論的タスクにおけるGPT-4の性能の測定について述べる。
タスク・プロンプトや入力集団における一見自明な修正は、サンプリング効果によって説明できるよりもはるかに大きな差をもたらすことが判明した。
論文 参考訳(メタデータ) (2024-09-11T21:48:33Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。