論文の概要: Conceptual In-Context Learning and Chain of Concepts: Solving Complex Conceptual Problems Using Large Language Models
- arxiv url: http://arxiv.org/abs/2412.15309v1
- Date: Thu, 19 Dec 2024 13:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:16.997739
- Title: Conceptual In-Context Learning and Chain of Concepts: Solving Complex Conceptual Problems Using Large Language Models
- Title(参考訳): 概念的文脈学習と概念の連鎖:大規模言語モデルを用いた複雑な概念問題の解法
- Authors: Nishtha N. Vaidya, Thomas Runkler, Thomas Hubauer, Veronika Haderlein-Hoegberg, Maja Mlicic Brandt,
- Abstract要約: 大規模言語モデル(LLM)は複雑な概念的問題を解決するための有望なエージェントである。
しかし、オープンワールドのデータに基づいてトレーニングされたバニラLSMには、必要な概念情報が欠けている。
LLMのための2つの新しいSCMアルゴリズムを提案し、LLMをCIで拡張し、LLMが複雑な概念的問題を解くことを可能にする。
- 参考スコア(独自算出の注目度): 0.3562485774739681
- License:
- Abstract: Science and engineering problems fall in the category of complex conceptual problems that require specific conceptual information (CI) like math/logic -related know-how, process information, or engineering guidelines to solve them. Large Language Models (LLMs) are promising agents to solve such complex conceptual problems due to their implications in advancing engineering and science tasks like assisted problem-solving. But vanilla LLMs, trained on open-world data, lack the necessary CI. In this work, we specifically explore shallow customization methods (SCMs) of LLMs for solving complex conceptual problems. We propose two novel SCM algorithms for LLM, to augment LLMs with CI and enable LLMs to solve complex conceptual problems: Conceptual In-Context Learning (C-ICL) and Chain of Concepts (CoC). The problem tackled in this paper is generation of proprietary data models in the engineering/industry domain based on conceptual information in data modelling guidelines. We evaluate our algorithms on varied sizes of the OpenAI LLMs against four evaluation metrics related to syntactic and semantic correctness, time and cost incurred. The proposed algorithms perform better than currently popular LLM SCMs like In-context Learning (ICL) and Chain of Thoughts (CoT). It was observed that as compared to CoT, response correctness increased by 30.6% and 29.88% for the new SCMs C-ICL and CoC respectively. Qualitative analysis suggests that the proposed new SCMs activate emergent capabilities in LLMs, previously unobserved in the existing SCMs. They make problem-solving processes more transparent and reduce hallucinations and the tendency of model responses to copy examples from prompts (parroting).
- Abstract(参考訳): 科学と工学の問題は、数学や論理学関連のノウハウ、プロセス情報、エンジニアリングガイドラインのような特定の概念情報(CI)を必要とする複雑な概念問題のカテゴリに該当する。
大規模言語モデル(LLM)は、工学や問題解決などの科学タスクの進歩に影響を及ぼすため、そのような複雑な概念的問題を解決することを約束するエージェントである。
しかし、オープンワールドデータに基づいてトレーニングされたバニラLSMには、必要なCIが欠如している。
本研究では,複雑な概念問題を解くために,LLMの浅層カスタマイズ法(SCM)について検討する。
LLMのための2つの新しいSCMアルゴリズムを提案し、LLMをCIで拡張し、概念的文脈学習(C-ICL)と概念の連鎖(CoC)という複雑な概念的問題を解決する。
本稿では,データモデリングガイドラインの概念的情報に基づいて,工学・工業分野の独自データモデルを作成する。
我々は,OpenAI LLMの様々なサイズについて,構文的,意味的正当性,時間,コストの4つの評価指標と比較した。
提案アルゴリズムは、ICL(In-context Learning)やCoT(Chain of Thoughts)など、現在一般的なLLM SCMよりも優れている。
CoTと比較して、新しいSCMのC-ICLとCoCの反応正解率は30.6%、29.88%増加した。
定性的分析により, 提案した新たなSCMは, 既存のSCMでは観測されなかったLCMの創発的能力を活性化することが示唆された。
彼らは問題解決プロセスをより透明にし、幻覚を減らし、モデル応答の傾向をプロンプト(パロチン)から例をコピーする。
関連論文リスト
- Large Language Models for Combinatorial Optimization of Design Structure Matrix [4.513609458468522]
エンジニアリングアプリケーションの効率と性能を改善するためには、組合せ最適化(CO)が不可欠である。
実世界の工学的問題に関しては、純粋数学的推論に基づくアルゴリズムは限定的であり、最適化に必要な文脈ニュアンスを捉えることができない。
本研究では,工学的CO問題の解法におけるLarge Language Models (LLMs) の可能性について,その推論能力と文脈的知識を活用して検討する。
論文 参考訳(メタデータ) (2024-11-19T15:39:51Z) - Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning [0.0]
パターン・オブ・シント(CoT)とプログラム・オブ・シント(PoT)ファインチューニング(PoT)は、LPMの知識を小さな言語モデル(SLM)に転送する一般的な方法である。
本稿では,SLMの問題解決プロセスを強化するために,新たな2段階のプロンプト戦略であるGap-Filling Prompting(GFP)を紹介する。
論文 参考訳(メタデータ) (2024-11-08T08:52:59Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Multi-step Inference over Unstructured Data [2.169874047093392]
医療、法律、金融などの分野における高い意思決定タスクは、精度、包括性、論理的一貫性のレベルを必要とする。
これらの問題に対処するための,ニューロシンボリックAIプラットフォームを開発した。
このプラットフォームは、知識抽出とアライメントのための微調整LDMと、堅牢なシンボリック推論エンジンを統合している。
論文 参考訳(メタデータ) (2024-06-26T00:00:45Z) - Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。
これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。
研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:08Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。