論文の概要: Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs
- arxiv url: http://arxiv.org/abs/2501.02825v1
- Date: Mon, 06 Jan 2025 07:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:33.593500
- Title: Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs
- Title(参考訳): LLMにおけるランダムサンプリング言語推論問題
- Authors: Kavi Gupta, Kate Sanders, Armando Solar-Lezama,
- Abstract要約: 我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。
決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。
3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
- 参考スコア(独自算出の注目度): 8.146860674148044
- License:
- Abstract: Can LLMs pick up language structure from examples? Evidence in prior work seems to indicate yes, as pretrained models repeatedly demonstrate the ability to adapt to new language structures and vocabularies. However, this line of research typically considers languages that are present within common pretraining datasets, or otherwise share notable similarities with these seen languages. In contrast, in this work we attempt to measure models' language understanding capacity while circumventing the risk of dataset recall. We parameterize large families of language tasks recognized by deterministic finite automata (DFAs), and can thus sample novel language reasoning problems to fairly evaulate LLMs regardless of training data. We find that, even in the strikingly simple setting of 3-state DFAs, LLMs underperform unparameterized ngram models on both language recognition and synthesis tasks. These results suggest that LLMs struggle to match the ability of basic language models in recognizing and reasoning over languages that are sufficiently distinct from the ones they see at training time, underscoring the distinction between learning individual languages and possessing a general theory of language.
- Abstract(参考訳): LLMは例から言語構造を拾えるか?
事前学習されたモデルは、新しい言語構造や語彙に適応する能力を繰り返し示している。
しかしながら、この研究の行は典型的には、一般的な事前訓練データセットに存在する言語や、それ以外はこれらの言語と顕著な類似点を共有している言語を考察する。
対照的に、本研究では、データセットリコールのリスクを回避しつつ、モデルの言語理解能力の測定を試みる。
決定論的有限オートマトン(DFA)によって認識される言語タスクの多種多様なファミリーをパラメータ化し,新しい言語推論問題をサンプル化して,トレーニングデータに関係なくLLMを適切に回避することができる。
3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両方のタスクにおいて非パラメータ化 n グラムモデルの性能が劣ることがわかった。
これらの結果から, LLMは, 学習時に見る言語と十分に異なる言語を認識・推論する上で, 基礎言語モデルの能力に適合することが示唆された。
関連論文リスト
- Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。
言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。
本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文 参考訳(メタデータ) (2025-02-17T20:40:01Z) - How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - Large Language Models are Easily Confused: A Quantitative Metric, Security Implications and Typological Analysis [5.029635172046762]
言語融合(Language Confusion)とは、大言語モデル(LLM)が所望の言語でもなく、文脈的に適切な言語でもテキストを生成する現象である。
我々は,この混乱を計測し定量化するために設計された,新しい計量であるLanguage Confusion Entropyを導入する。
論文 参考訳(メタデータ) (2024-10-17T05:43:30Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Interpretable Unified Language Checking [42.816372695828306]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。
ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-07T16:47:49Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。