論文の概要: Are Large Language Models Temporally Grounded?
- arxiv url: http://arxiv.org/abs/2311.08398v1
- Date: Tue, 14 Nov 2023 18:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:49:40.942602
- Title: Are Large Language Models Temporally Grounded?
- Title(参考訳): 大規模言語モデルは時折基盤化されているか?
- Authors: Yifu Qiu, Zheng Zhao, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti,
Shay B. Cohen
- Abstract要約: 文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
- 参考スコア(独自算出の注目度): 38.481606493496514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Are Large language models (LLMs) temporally grounded? Since LLMs cannot
perceive and interact with the environment, it is impossible to answer this
question directly. Instead, we provide LLMs with textual narratives and probe
them with respect to their common-sense knowledge of the structure and duration
of events, their ability to order events along a timeline, and self-consistency
within their temporal model (e.g., temporal relations such as after and before
are mutually exclusive for any pair of events). We evaluate state-of-the-art
LLMs (such as LLaMA 2 and GPT-4) on three tasks reflecting these abilities.
Generally, we find that LLMs lag significantly behind both human performance as
well as small-scale, specialised LMs. In-context learning, instruction tuning,
and chain-of-thought prompting reduce this gap only to a limited degree.
Crucially, LLMs struggle the most with self-consistency, displaying incoherent
behaviour in at least 27.23% of their predictions. Contrary to expectations, we
also find that scaling the model size does not guarantee positive gains in
performance. To explain these results, we study the sources from which LLMs may
gather temporal information: we find that sentence ordering in unlabelled
texts, available during pre-training, is only weakly correlated with event
ordering. Moreover, public instruction tuning mixtures contain few temporal
tasks. Hence, we conclude that current LLMs lack a consistent temporal model of
textual narratives. Code, datasets, and LLM outputs are available at
https://github.com/yfqiu-nlp/temporal-llms.
- Abstract(参考訳): 大規模言語モデル(LLM)は一時的基盤化されているか?
LLMは環境を知覚し、相互作用することができないため、この質問に答えることは不可能である。
代わりに、LLMに文章による物語を提供し、イベントの構造と期間に関する常識的な知識、タイムラインに沿ったイベントを順序付けする能力、時間モデル内での自己整合性(例えば、後と前のような時間的関係は、イベントのペアに対して相互に排他的である)について調査する。
LLaMA 2 や GPT-4 のような最先端の LLM を3つの課題で評価した。
一般に,LLMは人為的性能と小型の特殊なLMよりもかなり遅れていることがわかった。
文脈内での学習、命令のチューニング、思考の連鎖は、このギャップを限られた程度に減らす。
重要な点として、llmは、少なくとも27.23%の予測で一貫性のない行動を示す自己一貫性に最も苦しむ。
期待とは対照的に、モデルのサイズを拡大しても、パフォーマンスのプラスの利益は保証されない。
これらの結果を説明するために,LLMが時間的情報を集めることができる資料について検討した。
さらに、公開命令チューニング混合物は、時間的タスクをほとんど含まない。
したがって,現在のLLMにはテキスト物語の時間的モデルがない。
コード、データセット、LLM出力はhttps://github.com/yfqiu-nlp/temporal-llmsで入手できる。
関連論文リスト
- Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。
最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文 参考訳(メタデータ) (2024-10-14T13:10:45Z) - Are LLMs Good Annotators for Discourse-level Event Relation Extraction? [15.365993658296016]
大規模言語モデル (LLM) は、様々な自然言語処理タスクにおいて習熟度を示す。
本研究は, 教師あり学習によって確立されたベースラインと比較して, LLMの顕著な性能低下を明らかにした。
論文 参考訳(メタデータ) (2024-07-28T19:27:06Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Time Series Forecasting with LLMs: Understanding and Enhancing Model Capabilities [46.02234423159257]
大規模言語モデル(LLM)は多くの分野に適用され、近年急速に発展してきた。
近年の研究では、大規模な言語モデルを、さらなる微調整を行なわずに、アンフェロショット時系列推論として扱っている。
本研究は,LLMが周期性に欠けるデータセットにおいて,明確なパターンや傾向を持つ時系列予測において良好に機能することを示す。
論文 参考訳(メタデータ) (2024-02-16T17:15:28Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Event knowledge in large language models: the gap between the impossible
and the unlikely [46.540380831486125]
我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
論文 参考訳(メタデータ) (2022-12-02T23:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。