論文の概要: Automatically Advancing LLM Expertise in Technology Judgment
- arxiv url: http://arxiv.org/abs/2505.12452v3
- Date: Fri, 26 Sep 2025 21:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.940202
- Title: Automatically Advancing LLM Expertise in Technology Judgment
- Title(参考訳): 技術判断におけるLLMエキスパートの自動向上
- Authors: Siyang Wu, Honglin Bao, Nadav Kunievsky, James A. Evans,
- Abstract要約: 大規模言語モデル(LLM)は、科学、工学、革新のための中核的なツールになりつつある。
ますます難しい問題に答えられるという印象的な能力にもかかわらず、LLMが新しい課題に直面する際に真に自分の知識を使うかどうかは不明だ。
我々は、2015年以降の1300万のコンピュータサイエンス特許ペアのベンチマークを評価し、密度の高い技術ジャーゴンと戦略的に複雑な書き込みを特徴とする。
LLMはベンチマークに失敗することが多く、セマンティックに類似した特許の識別に苦慮している。
- 参考スコア(独自算出の注目度): 1.1269582666887323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly becoming core tools for science, engineering, and innovation. Their promise lies not just in remembering facts, but in putting knowledge to work. Despite their impressive ability to answer increasingly difficult questions, it remains unclear whether LLMs truly use their knowledge when confronted with new and challenging tasks. We address this question with a patent classification task that requires deep conceptual understanding: distinguishing objectively different but semantically similar patents. To evaluate this approach, we introduce a challenging new benchmark of 1.3 million post-2015 computer science patent pairs, characterized by dense technical jargon and strategically complex writing. We find that LLMs often fail our benchmark and struggle to distinguish among semantically similar patents. To probe this failure, we introduce a novel framework that decomposes model errors into two sources: missing and unused knowledge. Our approach asks models to generate clarifying questions to improve their understanding, and then compares three settings: raw performance, self-answered questions, and externally supplied answers. This decomposition reveals that LLMs often possess the relevant knowledge internally but fail to deploy it, while a smaller share of errors arises from genuine knowledge gaps. We then ask whether the ability of models to construct a task-specific database of questions and answers differs across models. We find that smaller models generate simpler, broadly transferable questions, while larger models propose more complex but less generalizable ones. This suggests new strategies for combining strengths across models. Our findings highlight a critical limitation of current LLMs and their evaluation: models often know more than they can use. LLM evaluation should shift from recall of static facts to application of dynamic knowledge.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学、工学、革新のための中核的なツールになりつつある。
彼らの約束は事実を思い出すだけでなく、知識を仕事に投入することにある。
ますます難しい問題に答えられるという印象的な能力にもかかわらず、LLMが新しい課題に直面する際に真に自分の知識を使うかどうかは不明だ。
我々は、客観的に異なるが意味的に類似した特許を区別する、深い概念的理解を必要とする特許分類タスクでこの問題に対処する。
このアプローチを評価するために,2015年以降の130万のコンピュータサイエンス特許ペアに対して,高密度な技術ジャーゴンと戦略的に複雑な書き込みを特徴とする,挑戦的な新しいベンチマークを導入する。
LLMはベンチマークに失敗することが多く、セマンティックに類似した特許の識別に苦慮している。
この失敗を調査するために、モデルエラーを2つのソースに分解する新しいフレームワークを導入します。
提案手法では、モデルに対して、その理解を改善するために明確な質問を生成するように求め、それから、生のパフォーマンス、自己回答された質問、外部から供給された回答の3つの設定を比較する。
この分解により、LSMは内部で関連する知識を持つことが多いが、デプロイに失敗することが判明する。
次に、モデル間で、質問や回答のタスク固有のデータベースを構築する能力が異なるかどうかを問う。
より小さなモデルはより単純で広く伝達可能な質問を生成するのに対し、より大きなモデルはより複雑だがより一般化不可能な質問を提案する。
これは、モデル間の強みを組み合わせるための新しい戦略を示唆している。
以上の結果から,現在のLCMの限界と評価の限界が浮かび上がっている。
LLM評価は、静的事実のリコールから動的知識の応用へ移行すべきである。
関連論文リスト
- LLM Inference Enhanced by External Knowledge: A Survey [16.319049759753106]
本研究では,外部知識を用いた大規模言語モデル(LLM)の強化戦略について検討する。
比較分析では、解釈可能性、スケーラビリティ、パフォーマンスのトレードオフを強調しています。
論文 参考訳(メタデータ) (2025-05-30T09:08:51Z) - Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。
RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。
本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文 参考訳(メタデータ) (2025-05-17T13:13:13Z) - Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。
まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。
次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文 参考訳(メタデータ) (2025-03-19T15:21:48Z) - WisdomBot: Tuning Large Language Models with Artificial Intelligence Knowledge [17.74988145184004]
大規模言語モデル(LLM)は自然言語処理(NLP)の強力なツールとして登場した。
本稿では,LLMの力と教育理論を組み合わせた,WisdomBotという教育用LLMについて述べる。
本稿では,推論中の2つの重要な拡張,すなわち,ローカル知識ベース検索の強化と,推論中の検索エンジン検索の強化を紹介する。
論文 参考訳(メタデータ) (2025-01-22T13:36:46Z) - Decoding Knowledge in Large Language Models: A Framework for Categorization and Comprehension [14.039653386385519]
大規模言語モデル(LLM)は知識を取得し、保持し、適用する。
本稿では,LLMの知識を2次元に分類する新しいフレームワークK-(CSA)2を紹介する。
論文 参考訳(メタデータ) (2025-01-02T16:34:10Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Hierarchical Deconstruction of LLM Reasoning: A Graph-Based Framework for Analyzing Knowledge Utilization [30.349165483935682]
大規模言語モデル(LLM)が推論の知識をどのように利用するのかは、まだよく分かっていない。
我々は,DepthQAデータセットを開発し,質問を3つの深さに分解する: (i)概念的知識の想起, (ii)手続き的知識の適用, (iii)戦略的知識の分析。
差分パターンは、モデルのキャパシティとトレーニングデータ記憶の可能性にまたがって観察される。
論文 参考訳(メタデータ) (2024-06-27T19:29:36Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - Towards Reliable Latent Knowledge Estimation in LLMs: Zero-Prompt Many-Shot Based Factual Knowledge Extraction [15.534647327246239]
本稿では,大規模言語モデル(LLM)を事実知識として探索する場合に,迅速なエンジニアリングを不要にすることを提案する。
我々のアプローチはZP-LKE(Zero-Prompt Latent Knowledge Estimator)と呼ばれ、LLMの文脈内学習能力を活用している。
我々は,Wikidata の知識ベースから,さまざまなオープンソース LLM の事実知識を,膨大な関連性や事実に対して大規模に評価する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism [0.0]
大規模言語モデル(LLM)は印象的な言語理解と生成能力を示している。
これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。
本稿では,LLMに対して,誤りを避けるために,難解な質問への回答を拒否するように指示する拒絶機構を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:20:49Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。