論文の概要: The dynamics of meaning through time: Assessment of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.05552v1
- Date: Thu, 09 Jan 2025 19:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:33.676407
- Title: The dynamics of meaning through time: Assessment of Large Language Models
- Title(参考訳): 時間的意味のダイナミクス:大規模言語モデルの評価
- Authors: Mohamed Taher Alrefaie, Fatty Salem, Nour Eldin Morsy, Nada Samir, Mohamed Medhat Gaber,
- Abstract要約: 本研究では,様々な大規模言語モデル(LLM)が意味の時間的ダイナミクスを捉える能力を評価することを目的とする。
比較分析にはChatGPT、GPT-4、Claude、Bard、Gemini、Llamaといった著名なモデルが含まれています。
発見は、各モデルの歴史的文脈と意味的シフトの扱いにおいて顕著な違いを示し、時間的意味的理解における強みと制限の両方を強調した。
- 参考スコア(独自算出の注目度): 2.5864824580604515
- License:
- Abstract: Understanding how large language models (LLMs) grasp the historical context of concepts and their semantic evolution is essential in advancing artificial intelligence and linguistic studies. This study aims to evaluate the capabilities of various LLMs in capturing temporal dynamics of meaning, specifically how they interpret terms across different time periods. We analyze a diverse set of terms from multiple domains, using tailored prompts and measuring responses through both objective metrics (e.g., perplexity and word count) and subjective human expert evaluations. Our comparative analysis includes prominent models like ChatGPT, GPT-4, Claude, Bard, Gemini, and Llama. Findings reveal marked differences in each model's handling of historical context and semantic shifts, highlighting both strengths and limitations in temporal semantic understanding. These insights offer a foundation for refining LLMs to better address the evolving nature of language, with implications for historical text analysis, AI design, and applications in digital humanities.
- Abstract(参考訳): 大規模言語モデル(LLM)が概念の歴史的文脈をどのように把握するかを理解することは、人工知能と言語研究の進歩に不可欠である。
本研究の目的は、意味の時間的ダイナミクス、特に異なる期間における言葉の解釈方法の把握における様々なLLMの能力を評価することである。
我々は,複数のドメインから多種多様な用語を抽出し,目的尺度(例えば,パープレキシティ,単語数)と主観的人間専門家評価(英語版)の両方を用いて,適切なプロンプトを用いて応答を測定する。
比較分析にはChatGPT、GPT-4、Claude、Bard、Gemini、Llamaといった著名なモデルが含まれています。
発見は、各モデルの歴史的文脈と意味的シフトの扱いにおいて顕著な違いを示し、時間的意味的理解における強みと制限の両方を強調した。
これらの洞察は、歴史的テキスト分析、AI設計、デジタル人文科学における応用など、言語の進化する性質に対処するためにLLMを洗練するための基盤を提供する。
関連論文リスト
- Large Language Models as Neurolinguistic Subjects: Identifying Internal Representations for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
伝統的な精神言語学的評価は、しばしばLSMの真の言語能力を誤って表現する統計バイアスを反映している。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - LLMTemporalComparator: A Tool for Analysing Differences in Temporal Adaptations of Large Language Models [17.021220773165016]
本研究では、異なる期間のデータに基づいて訓練された大規模言語モデル(LLM)における時間的不一致を分析することの課題に対処する。
本稿では,ユーザ定義クエリに基づく2つのLLMバージョンの出力を体系的に比較するシステムを提案する。
論文 参考訳(メタデータ) (2024-10-05T15:17:07Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - MAGNIFICo: Evaluating the In-Context Learning Ability of Large Language
Models to Generalize to Novel Interpretations [37.13707912132472]
人間は言語表現に新しい解釈を割り当てる素晴らしい能力を持っている。
大きな言語モデル(LLM)は知識の切り離しを持ち、何度も微調整を繰り返すのに費用がかかる。
我々は,LLMが文脈内学習を用いて新しい解釈を習得する能力を体系的に分析する。
論文 参考訳(メタデータ) (2023-10-18T00:02:38Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Machine-assisted quantitizing designs: augmenting humanities and social sciences with artificial intelligence [0.0]
大規模言語モデル(LLM)は、人文科学や社会科学におけるデータ分析をスケールアップする前例のない機会であることが示された。
設計原則を定量化し、変換し、言語学から特徴分析し、人間の専門知識と機械のスケーラビリティを透過的に統合する混合手法を構築します。
このアプローチは、1ダース以上のLDM支援ケーススタディで議論され、9つの多様な言語、複数の規律、タスクをカバーしている。
論文 参考訳(メタデータ) (2023-09-24T14:21:50Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。