Fugu-MT 論文翻訳(概要): What is a Number, That a Large Language Model May Know It?

論文の概要: What is a Number, That a Large Language Model May Know It?

arxiv url: http://arxiv.org/abs/2502.01540v1
Date: Mon, 03 Feb 2025 17:17:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.231673
Title: What is a Number, That a Large Language Model May Know It?
Title（参考訳）: 大きい言語モデルが知っている数字は何か?
Authors: Raja Marjieh, Veniamin Veselovsky, Thomas L. Griffiths, Ilia Sucholutsky,
Abstract要約: 数字は、人間が周囲の世界をどのように表現し、表現するかの基本的な部分である。大規模言語モデルは、テキスト入力から番号が何であるかを学ばなければならない。 LLMは文字列や数値表現をブレンドした表現空間を学習する。
参考スコア（独自算出の注目度）: 15.331426297060094
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Numbers are a basic part of how humans represent and describe the world around them. As a consequence, learning effective representations of numbers is critical for the success of large language models as they become more integrated into everyday decisions. However, these models face a challenge: depending on context, the same sequence of digit tokens, e.g., 911, can be treated as a number or as a string. What kind of representations arise from this duality, and what are its downstream implications? Using a similarity-based prompting technique from cognitive science, we show that LLMs learn representational spaces that blend string-like and numerical representations. In particular, we show that elicited similarity judgments from these models over integer pairs can be captured by a combination of Levenshtein edit distance and numerical Log-Linear distance, suggesting an entangled representation. In a series of experiments we show how this entanglement is reflected in the latent embeddings, how it can be reduced but not entirely eliminated by context, and how it can propagate into a realistic decision scenario. These results shed light on a representational tension in transformer models that must learn what a number is from text input.
Abstract（参考訳）: 数字は、人間が周囲の世界をどのように表現し、表現するかの基本的な部分である。結果として、数値の効果的な表現を学ぶことは、日々の意思決定により統合されるにつれて、大きな言語モデルの成功に不可欠である。しかし、これらのモデルは、文脈によっては、同じ桁のトークンの列、例えば911は、数として、あるいは文字列として扱われる。この双対性からどのような表現が生まれ、下流にどのような意味があるのか? 類似性に基づく認知科学のプロンプト技術を用いて,LLMが文字列や数値表現を混合した表現空間を学習することを示す。特に、これらのモデルから整数対に対する類似性判定をLevenshtein編集距離と数値対数-線形距離の組み合わせで取得できることを示し、絡み合った表現を示唆する。一連の実験では、この絡み合いが潜伏した埋め込みにどのように反映されるか、どのように減らされるが、文脈によって完全に排除されないか、現実的な決定シナリオにどのように伝播するかを示す。これらの結果は、テキスト入力から数が何であるかを学習しなければならないトランスフォーマーモデルにおける表現張力に光を当てた。

関連論文リスト

Investigating the interaction of linguistic and mathematical reasoning in language models using multilingual number puzzles [8.820095911041637]
言語モデル (LLMs) は言語-数学のパズルと、言語間数系を含む。言語における数値の言語的側面と数学的側面を解き放つ一連の実験を通して, LLM にとってなぜこの課題が難しいのかを考察する。人間のスケールデータにおける暗黙のパターンから構成規則を柔軟に推論する能力は、現在の推論モデルにとってオープンな課題である。
論文参考訳（メタデータ） (2025-06-16T18:09:38Z)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
How to Leverage Digit Embeddings to Represent Numbers? [13.880400817682059]
数値推論において、数自体を理解することは、既存の言語モデルにとって依然として課題である。数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文参考訳（メタデータ） (2024-07-01T01:31:41Z)
Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory Prediction [23.45902601618188]
言語モデルは、文脈理解と生成性能において印象的な能力を示してきた。 LMTraj (Language-based Multimodal Trajectory predictor) を提案する。本稿では,言語に基づくモデルが,歩行者の軌道予測に有効なことを示し,既存の数値ベースの予測手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-27T11:06:44Z)
Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文参考訳（メタデータ） (2024-01-08T08:54:22Z)
Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。代わりにモデルの語彙を変更する(例えば、範囲10～100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文参考訳（メタデータ） (2023-10-09T23:07:05Z)
Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文参考訳（メタデータ） (2023-06-03T21:39:07Z)
The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文参考訳（メタデータ） (2023-06-01T17:57:08Z)
Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文参考訳（メタデータ） (2023-05-24T19:10:46Z)
Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文参考訳（メタデータ） (2023-05-18T07:50:44Z)
Crawling the Internal Knowledge-Base of Language Models [53.95793060766248]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-01-30T12:03:36Z)
What do Toothbrushes do in the Kitchen? How Transformers Think our World is Structured [137.83584233680116]
本稿では,トランスフォーマーに基づく言語モデルがオブジェクト関係に関する知識を抽出するのにどの程度役立つかを検討する。異なる類似度尺度と組み合わせたモデルが,抽出できる知識の量で大きく異なることを示す。驚くべきことに、静的モデルは、コンテキスト化されたモデルと同様に、ほぼ同じようにパフォーマンスします。
論文参考訳（メタデータ） (2022-04-12T10:00:20Z)
Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文参考訳（メタデータ） (2022-02-21T18:32:24Z)
Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文参考訳（メタデータ） (2021-11-29T11:01:49Z)
Investigating the Limitations of the Transformers with Simple Arithmetic Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文参考訳（メタデータ） (2021-02-25T17:22:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。