論文の概要: What is a Number, That a Large Language Model May Know It?
- arxiv url: http://arxiv.org/abs/2502.01540v1
- Date: Mon, 03 Feb 2025 17:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:32.375603
- Title: What is a Number, That a Large Language Model May Know It?
- Title(参考訳): 大きい言語モデルが知っている数字は何か?
- Authors: Raja Marjieh, Veniamin Veselovsky, Thomas L. Griffiths, Ilia Sucholutsky,
- Abstract要約: 数字は、人間が周囲の世界をどのように表現し、表現するかの基本的な部分である。
大規模言語モデルは、テキスト入力から番号が何であるかを学ばなければならない。
LLMは文字列や数値表現をブレンドした表現空間を学習する。
- 参考スコア(独自算出の注目度): 15.331426297060094
- License:
- Abstract: Numbers are a basic part of how humans represent and describe the world around them. As a consequence, learning effective representations of numbers is critical for the success of large language models as they become more integrated into everyday decisions. However, these models face a challenge: depending on context, the same sequence of digit tokens, e.g., 911, can be treated as a number or as a string. What kind of representations arise from this duality, and what are its downstream implications? Using a similarity-based prompting technique from cognitive science, we show that LLMs learn representational spaces that blend string-like and numerical representations. In particular, we show that elicited similarity judgments from these models over integer pairs can be captured by a combination of Levenshtein edit distance and numerical Log-Linear distance, suggesting an entangled representation. In a series of experiments we show how this entanglement is reflected in the latent embeddings, how it can be reduced but not entirely eliminated by context, and how it can propagate into a realistic decision scenario. These results shed light on a representational tension in transformer models that must learn what a number is from text input.
- Abstract(参考訳): 数字は、人間が周囲の世界をどのように表現し、表現するかの基本的な部分である。
結果として、数値の効果的な表現を学ぶことは、日々の意思決定により統合されるにつれて、大きな言語モデルの成功に不可欠である。
しかし、これらのモデルは、文脈によっては、同じ桁のトークンの列、例えば911は、数として、あるいは文字列として扱われる。
この双対性からどのような表現が生まれ、下流にどのような意味があるのか?
類似性に基づく認知科学のプロンプト技術を用いて,LLMが文字列や数値表現を混合した表現空間を学習することを示す。
特に、これらのモデルから整数対に対する類似性判定をLevenshtein編集距離と数値対数-線形距離の組み合わせで取得できることを示し、絡み合った表現を示唆する。
一連の実験では、この絡み合いが潜伏した埋め込みにどのように反映されるか、どのように減らされるが、文脈によって完全に排除されないか、現実的な決定シナリオにどのように伝播するかを示す。
これらの結果は、テキスト入力から数が何であるかを学習しなければならないトランスフォーマーモデルにおける表現張力に光を当てた。
関連論文リスト
- How to Leverage Digit Embeddings to Represent Numbers? [13.880400817682059]
数値推論において、数自体を理解することは、既存の言語モデルにとって依然として課題である。
数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。
我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文 参考訳(メタデータ) (2024-07-01T01:31:41Z) - Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory Prediction [23.45902601618188]
言語モデルは、文脈理解と生成性能において印象的な能力を示してきた。
LMTraj (Language-based Multimodal Trajectory predictor) を提案する。
本稿では,言語に基づくモデルが,歩行者の軌道予測に有効なことを示し,既存の数値ベースの予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T11:06:44Z) - Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。
代わりにモデルの語彙を変更する(例えば、範囲10~100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文 参考訳(メタデータ) (2023-10-09T23:07:05Z) - Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。
本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文 参考訳(メタデータ) (2023-05-18T07:50:44Z) - Crawling the Internal Knowledge-Base of Language Models [53.95793060766248]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。
我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-01-30T12:03:36Z) - What do Toothbrushes do in the Kitchen? How Transformers Think our World
is Structured [137.83584233680116]
本稿では,トランスフォーマーに基づく言語モデルがオブジェクト関係に関する知識を抽出するのにどの程度役立つかを検討する。
異なる類似度尺度と組み合わせたモデルが,抽出できる知識の量で大きく異なることを示す。
驚くべきことに、静的モデルは、コンテキスト化されたモデルと同様に、ほぼ同じようにパフォーマンスします。
論文 参考訳(メタデータ) (2022-04-12T10:00:20Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文 参考訳(メタデータ) (2021-02-25T17:22:53Z) - Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。
変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。
我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。