論文の概要: Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs
- arxiv url: http://arxiv.org/abs/2604.18203v1
- Date: Mon, 20 Apr 2026 12:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.876283
- Title: Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs
- Title(参考訳): マルチモーダルLLMにおける乗算:テキスト・画像・音声入力による計算
- Authors: Samuel G. Balter, Ethan Jerzak, Connor T. Jerzak,
- Abstract要約: マルチモーダル LLM は、モダリティをまたいだ数値内容を正確に知覚できるが、正確なマルチ桁乗算はできない。
本稿では,桁長,桁幅,表現を因子的に変化させるマルチモーダル乗法ベンチマークを提案する。
また、算術負荷 C を総桁数と非ゼロ桁数の積として定義する。
- 参考スコア(独自算出の注目度): 0.8129517423858409
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal LLMs can accurately perceive numerical content across modalities yet fail to perform exact multi-digit multiplication when the identical underlying arithmetic problem is presented as numerals, number words, images, or in audio form. Because existing benchmarks often lack systematically paired instances across modalities, it remains difficult to compare genuine arithmetic limits within and across model families. We therefore introduce a controlled multimodal multiplication benchmark that factorially varies digit length, digit sparsity, representation (e.g., numerals vs. number words), and modality (text, rendered images, audio), with paired instances from a reproducible generator. We also define arithmetic load, C, as the product of the total and non-zero digit count as a compact, mechanistically motivated proxy for operation count. Across evaluations, accuracy falls sharply as C grows, often nearing zero by C > 100. Indeed, C remains predictive of performance across modalities and models, with R-squared often > 0.5, nearing the value from more complex measures of arithmetic load that count the number of intermediate arithmetic steps. A separate perception-versus-computation decomposition shows that multimodal degradation is primarily computational rather than perceptual: on matched-perception checks, models are near-perfect (> 99%) across modalities, even when multiplication accuracy drops. Beyond measuring when models fail, we ask which procedures they are predisposed to follow. We introduce a forced-completion loss probe that scores heuristic-specific reasoning prefixes--including columnar multiplication, distributive decomposition, and rounding/compensation. Here, decomposition is favored in both text and vision modalities; heuristic-specific LoRA adapters produce near-orthogonal updates yet degrade accuracy, indicating the base model maintains a well-tuned internal router.
- Abstract(参考訳): マルチモーダル LLM は、数値、数語、画像、音声形式として同一の算術問題を提示した場合、正確にマルチ桁乗算を行うことができない。
既存のベンチマークは、モダリティ全体にわたって体系的にペアリングされたインスタンスを欠いていることが多いため、モデルファミリ内およびモデルファミリ間の真の算術限界を比較することは困難である。
そこで我々は,再現可能なジェネレータからのペアインスタンスを用いて,桁長,桁幅,表現(例,数字対数語),モダリティ(テキスト,レンダリング画像,音声)を因子的に変化させるマルチモーダル乗算ベンチマークを導入する。
また、算術負荷 C を、演算数に対するコンパクトで機械的に動機づけられたプロキシとして、総桁数と非ゼロ桁数の積として定義する。
評価全体では、Cが成長するにつれて精度が急落し、C > 100 に近づいた。
実際、C はモダリティとモデルにまたがる性能を予測し続け、R-二乗はしばしば 0.5 に近づき、中間演算ステップの数を数えるより複雑な算術負荷の測度から値に近づいた。
異なる知覚逆計算分解は、マルチモーダル分解が知覚よりも主に計算的であることを示している:一致した知覚チェックでは、乗算精度が低下してもモデルはほぼ完璧(>99%)である。
モデルがいつ失敗するかを測定するだけでなく、どの手順に従うべきかを尋ねます。
本稿では, カラム乗算, 分配分解, 丸め/補償を含む, ヒューリスティックな推論プレフィックスを採点する強制補完損失プローブを提案する。
ヒューリスティック固有のLoRAアダプタは、ほぼ直交的に更新されるが、精度は低下し、ベースモデルはよく調整された内部ルータを維持していることを示している。
関連論文リスト
- How Focused Are LLMs? A Quantitative Study via Repetitive Deterministic Prediction Tasks [0.9338697277815541]
繰り返し決定論的予測タスクにおける大規模言語モデルの性能について検討する。
実験により, 特徴的な長さスケールを超える急激な2重指数降下が明らかとなった。
これは、モデルがそれぞれの操作を独立して実行できないことを示している。
論文 参考訳(メタデータ) (2025-11-02T01:42:08Z) - Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文 参考訳(メタデータ) (2025-09-30T19:03:26Z) - Numerical Considerations in Weighted Model Counting [0.0]
本稿では,複数の数値表現を組み合わせることで,ユーザの指定した精度を達成することが保証される重み付きモデルカウントを効率的に計算する方法を示す。
我々は,標準のIEEE倍精度表現を64ビット指数で補うことで,重み付きモデルカウントでよく発生するアンダーフローやオーバーフローの問題を回避できることを示す。
論文 参考訳(メタデータ) (2025-08-08T12:28:49Z) - Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges [0.0]
GSM-Rangesは、数学問題における数値を体系的に摂動させ、様々な数値スケールでモデルロバスト性を評価するデータセットジェネレータである。
また,論理的誤りと非論理的誤りを区別し,推論過程を計算精度以上の精度で評価する手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T09:53:10Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Berrut Approximated Coded Computing: Straggler Resistance Beyond
Polynomial Computing [34.69732430310801]
本稿では,ストラグラー効果に対処する代替手法として,Berrut Approximated Coded Computing (BACC)を提案する。
BACCは計算複雑性が低い数値的に安定であることが証明されている。
特に、BACCは、サーバのクラスタ上でディープニューラルネットワークをトレーニングするために使用される。
論文 参考訳(メタデータ) (2020-09-17T14:23:38Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。