論文の概要: Questioning Internal Knowledge Structure of Large Language Models Through the Lens of the Olympic Games
- arxiv url: http://arxiv.org/abs/2409.06518v1
- Date: Tue, 10 Sep 2024 13:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 17:25:26.947752
- Title: Questioning Internal Knowledge Structure of Large Language Models Through the Lens of the Olympic Games
- Title(参考訳): オリンピックのレンズによる大言語モデルの内的知識構造への疑問
- Authors: Juhwan Choi, YoungBin Kim,
- Abstract要約: オリンピックの歴史的メダル集計データを用いて,大規模言語モデル(LLM)の内部知識構造を解析した。
我々の結果は、最先端のLLMが個々のチームに対してメダル数を報告する上で、非常にうまく機能しているのに対して、特定のランキングに関する質問に対して、かなり苦労していることを示している。
- 参考スコア(独自算出の注目度): 8.406910685074136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become a dominant approach in natural language processing, yet their internal knowledge structures remain largely unexplored. In this paper, we analyze the internal knowledge structures of LLMs using historical medal tallies from the Olympic Games. We task the models with providing the medal counts for each team and identifying which teams achieved specific rankings. Our results reveal that while state-of-the-art LLMs perform remarkably well in reporting medal counts for individual teams, they struggle significantly with questions about specific rankings. This suggests that the internal knowledge structures of LLMs are fundamentally different from those of humans, who can easily infer rankings from known medal counts. To support further research, we publicly release our code, dataset, and model outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理において支配的なアプローチとなっているが、その内部知識構造はほとんど解明されていない。
本稿では,オリンピックの歴史的メダル集計データを用いて,LLMの内部知識構造を解析する。
私たちは、各チームにメダル数を提供し、どのチームが特定のランクを獲得したかを特定することで、モデルに対処します。
我々の結果は、最先端のLLMが個々のチームに対してメダル数を報告する上で、非常にうまく機能しているのに対して、特定のランキングに関する質問に対して、かなり苦労していることを示している。
このことは、LLMの内部知識構造が、既知のメダル数から簡単にランク付けできる人間と根本的に異なることを示唆している。
さらなる研究をサポートするため、コード、データセット、モデルアウトプットを公開しています。
関連論文リスト
- Large Language Models as a Tool for Mining Object Knowledge [0.42970700836450487]
大きな言語モデルは、その答えの根拠の不透明さと、疑問が持たれたときに事実を議論する傾向があるため、信頼できるインテリジェントシステムとして不足する。
本稿では,日常の共通アーティファクトに関する明示的な知識について考察する。
約2,300個のオブジェクトとそのサブタイプの部品や材料に関するデータのリポジトリを作成します。
この知識マイニングへの貢献は、物体の構造と構成に関する推論に関するAI研究に有用であることが証明されるべきである。
論文 参考訳(メタデータ) (2024-10-16T18:46:02Z) - When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives [46.04238534224658]
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。
我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。
その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
論文 参考訳(メタデータ) (2024-06-17T20:49:35Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - SportQA: A Benchmark for Sports Understanding in Large Language Models [12.860652075730876]
SportQAは、スポーツ理解の文脈で大規模言語モデル(LLM)を評価するために特別に設計されたベンチマークである。
SportQAには3つの難易度で70,000以上の複数の質問が含まれている。
以上の結果から,LSMは基本的なスポーツ知識において有能な性能を示す一方で,より複雑なシナリオベースのスポーツ推論に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-24T17:12:10Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。