論文の概要: Automatically Advancing LLM Expertise in Technology Judgment
- arxiv url: http://arxiv.org/abs/2505.12452v3
- Date: Fri, 26 Sep 2025 21:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.940202
- Title: Automatically Advancing LLM Expertise in Technology Judgment
- Title(参考訳): 技術判断におけるLLMエキスパートの自動向上
- Authors: Siyang Wu, Honglin Bao, Nadav Kunievsky, James A. Evans,
- Abstract要約: 大規模言語モデル(LLM)は、科学、工学、革新のための中核的なツールになりつつある。
ますます難しい問題に答えられるという印象的な能力にもかかわらず、LLMが新しい課題に直面する際に真に自分の知識を使うかどうかは不明だ。
我々は、2015年以降の1300万のコンピュータサイエンス特許ペアのベンチマークを評価し、密度の高い技術ジャーゴンと戦略的に複雑な書き込みを特徴とする。
LLMはベンチマークに失敗することが多く、セマンティックに類似した特許の識別に苦慮している。
- 参考スコア(独自算出の注目度): 1.1269582666887323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly becoming core tools for science, engineering, and innovation. Their promise lies not just in remembering facts, but in putting knowledge to work. Despite their impressive ability to answer increasingly difficult questions, it remains unclear whether LLMs truly use their knowledge when confronted with new and challenging tasks. We address this question with a patent classification task that requires deep conceptual understanding: distinguishing objectively different but semantically similar patents. To evaluate this approach, we introduce a challenging new benchmark of 1.3 million post-2015 computer science patent pairs, characterized by dense technical jargon and strategically complex writing. We find that LLMs often fail our benchmark and struggle to distinguish among semantically similar patents. To probe this failure, we introduce a novel framework that decomposes model errors into two sources: missing and unused knowledge. Our approach asks models to generate clarifying questions to improve their understanding, and then compares three settings: raw performance, self-answered questions, and externally supplied answers. This decomposition reveals that LLMs often possess the relevant knowledge internally but fail to deploy it, while a smaller share of errors arises from genuine knowledge gaps. We then ask whether the ability of models to construct a task-specific database of questions and answers differs across models. We find that smaller models generate simpler, broadly transferable questions, while larger models propose more complex but less generalizable ones. This suggests new strategies for combining strengths across models. Our findings highlight a critical limitation of current LLMs and their evaluation: models often know more than they can use. LLM evaluation should shift from recall of static facts to application of dynamic knowledge.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学、工学、革新のための中核的なツールになりつつある。
彼らの約束は事実を思い出すだけでなく、知識を仕事に投入することにある。
ますます難しい問題に答えられるという印象的な能力にもかかわらず、LLMが新しい課題に直面する際に真に自分の知識を使うかどうかは不明だ。
我々は、客観的に異なるが意味的に類似した特許を区別する、深い概念的理解を必要とする特許分類タスクでこの問題に対処する。
このアプローチを評価するために,2015年以降の130万のコンピュータサイエンス特許ペアに対して,高密度な技術ジャーゴンと戦略的に複雑な書き込みを特徴とする,挑戦的な新しいベンチマークを導入する。
LLMはベンチマークに失敗することが多く、セマンティックに類似した特許の識別に苦慮している。
この失敗を調査するために、モデルエラーを2つのソースに分解する新しいフレームワークを導入します。
提案手法では、モデルに対して、その理解を改善するために明確な質問を生成するように求め、それから、生のパフォーマンス、自己回答された質問、外部から供給された回答の3つの設定を比較する。
この分解により、LSMは内部で関連する知識を持つことが多いが、デプロイに失敗することが判明する。
次に、モデル間で、質問や回答のタスク固有のデータベースを構築する能力が異なるかどうかを問う。
より小さなモデルはより単純で広く伝達可能な質問を生成するのに対し、より大きなモデルはより複雑だがより一般化不可能な質問を提案する。
これは、モデル間の強みを組み合わせるための新しい戦略を示唆している。
以上の結果から,現在のLCMの限界と評価の限界が浮かび上がっている。
LLM評価は、静的事実のリコールから動的知識の応用へ移行すべきである。
関連論文リスト
- LLM Inference Enhanced by External Knowledge: A Survey [16.319049759753106]
本研究では,外部知識を用いた大規模言語モデル(LLM)の強化戦略について検討する。
比較分析では、解釈可能性、スケーラビリティ、パフォーマンスのトレードオフを強調しています。
論文 参考訳(メタデータ) (2025-05-30T09:08:51Z) - Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。
RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。
本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文 参考訳(メタデータ) (2025-05-17T13:13:13Z) - WisdomBot: Tuning Large Language Models with Artificial Intelligence Knowledge [17.74988145184004]
大規模言語モデル(LLM)は自然言語処理(NLP)の強力なツールとして登場した。
本稿では,LLMの力と教育理論を組み合わせた,WisdomBotという教育用LLMについて述べる。
本稿では,推論中の2つの重要な拡張,すなわち,ローカル知識ベース検索の強化と,推論中の検索エンジン検索の強化を紹介する。
論文 参考訳(メタデータ) (2025-01-22T13:36:46Z) - Decoding Knowledge in Large Language Models: A Framework for Categorization and Comprehension [14.039653386385519]
大規模言語モデル(LLM)は知識を取得し、保持し、適用する。
本稿では,LLMの知識を2次元に分類する新しいフレームワークK-(CSA)2を紹介する。
論文 参考訳(メタデータ) (2025-01-02T16:34:10Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。