論文の概要: Medal Matters: Probing LLMs' Failure Cases Through Olympic Rankings
- arxiv url: http://arxiv.org/abs/2409.06518v2
- Date: Thu, 07 Aug 2025 04:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.476766
- Title: Medal Matters: Probing LLMs' Failure Cases Through Olympic Rankings
- Title(参考訳): メダル:オリンピックランキングでLLMの失敗事例を調査
- Authors: Juhwan Choi, Seunguk Yu, JungMin Yun, YoungBin Kim,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。
本研究は,歴史的オリンピックメダルのレンズを通して,これらの構造について検討する。
最先端のLLMはメダル数を思い出すのに優れていますが、ランキングの提供に苦労しています。
- 参考スコア(独自算出の注目度): 6.847246434029366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in natural language processing tasks, yet their internal knowledge structures remain poorly understood. This study examines these structures through the lens of historical Olympic medal tallies, evaluating LLMs on two tasks: (1) retrieving medal counts for specific teams and (2) identifying rankings of each team. While state-of-the-art LLMs excel in recalling medal counts, they struggle with providing rankings, highlighting a key difference between their knowledge organization and human reasoning. These findings shed light on the limitations of LLMs' internal knowledge integration and suggest directions for improvement. To facilitate further research, we release our code, dataset, and model outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めているが、その内部知識構造はいまだに理解されていない。
本研究は,歴史オリンピックのメダルランキングのレンズを用いて,(1)特定チームにおけるメダル数を取得すること,(2)各チームのランキングを決定すること,の2つの課題について,LSMの評価を行った。
最先端のLLMはメダルの数を思い出すのに優れていますが、彼らの知識組織と人間の推論の主な違いを強調しながら、ランキングの提供に苦労しています。
これらの知見は, LLMの内部知識統合の限界に光を当て, 改善の方向性を示唆した。
さらなる研究を容易にするため、コード、データセット、モデルアウトプットをリリースしています。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Memorization or Reasoning? Exploring the Idiom Understanding of LLMs [6.046971695786252]
MIDASは6つの言語におけるイディオムの大規模なデータセットであり、それぞれが対応する意味と組み合わせられている。
以上の結果から,LLMは暗記だけでなく,文脈的手がかりと推論を統合したハイブリッドアプローチも採用していることが示唆された。
このことは、LLMにおける慣用的理解が、内部知識検索と推論に基づく推論の相互作用から生まれることを意味する。
論文 参考訳(メタデータ) (2025-05-22T04:31:25Z) - Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues [3.2162648244439684]
本研究では,対話における応答の共感を測り,評価する上で,大規模言語モデルがいかに効果的かを調べるための枠組みを開発する。
我々の戦略は、最新かつ微調整されたLLMの性能を明示的で説明可能な特徴で近似することである。
以上の結果から,組込みのみを用いる場合,ジェネリックLLMに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-28T20:37:57Z) - Large Language Models as a Tool for Mining Object Knowledge [0.42970700836450487]
大きな言語モデルは、その答えの根拠の不透明さと、疑問が持たれたときに事実を議論する傾向があるため、信頼できるインテリジェントシステムとして不足する。
本稿では,日常の共通アーティファクトに関する明示的な知識について考察する。
約2,300個のオブジェクトとそのサブタイプの部品や材料に関するデータのリポジトリを作成します。
この知識マイニングへの貢献は、物体の構造と構成に関する推論に関するAI研究に有用であることが証明されるべきである。
論文 参考訳(メタデータ) (2024-10-16T18:46:02Z) - When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives [46.04238534224658]
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。
我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。
その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
論文 参考訳(メタデータ) (2024-06-17T20:49:35Z) - Reversing the Forget-Retain Objectives: An Efficient LLM Unlearning Framework from Logit Difference [39.29939437034823]
我々は、ログ差分(ULD)からのアンラーニングと呼ばれる新しいアンラーニングフレームワークを提案する。
本手法は,LLMの全体的な能力を維持しつつ,意図した忘れを効果的に実現し,トレーニング時間を3倍以上に短縮する。
論文 参考訳(メタデータ) (2024-06-12T19:26:35Z) - LinkGPT: Teaching Large Language Models To Predict Missing Links [23.57145845001286]
大規模言語モデル(LLM)は、様々な言語やビジョンタスクにおいて有望な結果を示している。
近年、グラフベースのタスク、特にテキスト分散グラフ(TAG)にLLMを適用することへの関心が高まっている。
論文 参考訳(メタデータ) (2024-06-07T04:54:36Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - SportQA: A Benchmark for Sports Understanding in Large Language Models [12.860652075730876]
SportQAは、スポーツ理解の文脈で大規模言語モデル(LLM)を評価するために特別に設計されたベンチマークである。
SportQAには3つの難易度で70,000以上の複数の質問が含まれている。
以上の結果から,LSMは基本的なスポーツ知識において有能な性能を示す一方で,より複雑なシナリオベースのスポーツ推論に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-24T17:12:10Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。