論文の概要: IOLBENCH: Benchmarking LLMs on Linguistic Reasoning
- arxiv url: http://arxiv.org/abs/2501.04249v1
- Date: Wed, 08 Jan 2025 03:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:16.327769
- Title: IOLBENCH: Benchmarking LLMs on Linguistic Reasoning
- Title(参考訳): IOLBENCH:言語推論におけるLLMのベンチマーク
- Authors: Satyam Goyal, Soham Dan,
- Abstract要約: IOL(International Linguistics Olympiad)問題に基づく新しいベンチマークであるIOLBENCHを紹介する。
このデータセットは、文法、形態学、音韻学、意味論をテストする様々な問題を含んでいる。
最も先進的なモデルでさえ、言語的な複雑さの複雑さを扱うのに苦労している。
- 参考スコア(独自算出の注目度): 8.20398036986024
- License:
- Abstract: Despite the remarkable advancements and widespread applications of deep neural networks, their ability to perform reasoning tasks remains limited, particularly in domains requiring structured, abstract thought. In this paper, we investigate the linguistic reasoning capabilities of state-of-the-art large language models (LLMs) by introducing IOLBENCH, a novel benchmark derived from International Linguistics Olympiad (IOL) problems. This dataset encompasses diverse problems testing syntax, morphology, phonology, and semantics, all carefully designed to be self-contained and independent of external knowledge. These tasks challenge models to engage in metacognitive linguistic reasoning, requiring the deduction of linguistic rules and patterns from minimal examples. Through extensive benchmarking of leading LLMs, we find that even the most advanced models struggle to handle the intricacies of linguistic complexity, particularly in areas demanding compositional generalization and rule abstraction. Our analysis highlights both the strengths and persistent limitations of current models in linguistic problem-solving, offering valuable insights into their reasoning capabilities. By introducing IOLBENCH, we aim to foster further research into developing models capable of human-like reasoning, with broader implications for the fields of computational linguistics and artificial intelligence.
- Abstract(参考訳): ディープニューラルネットワークの顕著な進歩と広範な応用にもかかわらず、推論タスクを実行する能力は、特に構造化された抽象的な思考を必要とする領域において制限されている。
本稿では,国際言語オリンピアード(IOL)問題から派生した新しいベンチマークであるIOLBENCHを導入することで,最先端の大規模言語モデル(LLM)の言語推論能力について検討する。
このデータセットは、構文、形態学、音韻学、意味論をテストする様々な問題を含み、全て自己完結型で外部知識に依存しないように設計されている。
これらのタスクはメタ認知的言語推論に関わるモデルに挑戦し、最小限の例から言語規則とパターンを導出する必要がある。
先行するLLMの広範なベンチマークを通じて、最も先進的なモデルでさえ、特に構成一般化や規則抽象化を必要とする領域において、言語複雑性の複雑さを扱うのに苦労していることがわかった。
我々の分析は、言語的問題解決における現在のモデルの長所と短所の両方を強調し、推論能力に関する貴重な洞察を提供する。
IOLBENCHを導入することで、計算言語学や人工知能の分野に幅広い意味を持ちながら、人間のような推論が可能なモデルの開発をさらに進めることを目指している。
関連論文リスト
- Proceedings of the First International Workshop on Next-Generation Language Models for Knowledge Representation and Reasoning (NeLaMKRR 2024) [16.282850445579857]
推論は人間の知性の本質的な要素であり、批判的に考える能力において基本的な役割を果たす。
自然言語処理における最近の進歩は、トランスフォーマーに基づく言語モデルの出現とともに、これらのモデルが推論能力を示す可能性を示唆している。
言語モデルにおける推論について議論が続いているが、これらのモデルが実際に推論できる程度に注目することは容易ではない。
論文 参考訳(メタデータ) (2024-10-07T02:31:47Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Learning Shortcuts: On the Misleading Promise of NLU in Language Models [4.8951183832371]
大規模言語モデル(LLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。
近年の研究では、LLMはタスクの実行時にショートカットを利用することが多く、その決定規則の一般化性に欠けると同時に、性能向上の錯覚を生んでいることが判明している。
論文 参考訳(メタデータ) (2024-01-17T21:55:15Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。
具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。
PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文 参考訳(メタデータ) (2023-05-28T04:22:26Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T15:43:57Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。