論文の概要: Improving LLMs with a knowledge from databases
- arxiv url: http://arxiv.org/abs/2506.05560v1
- Date: Thu, 05 Jun 2025 20:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.220832
- Title: Improving LLMs with a knowledge from databases
- Title(参考訳): データベースからの知識によるLCMの改善
- Authors: Petr Máša,
- Abstract要約: 大規模言語モデル(LLM)は、ほぼ毎回大きな進歩を遂げています。
検索強化生成(RAG)、エージェント、ツールなど、多くの高度な技術が導入され、広く受け入れられている。
本稿では,定義した知識パターンに基づいてルールセットを生成し,ルールをルールからテキストへ変換する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are achieving significant progress almost every moment now. Many advanced techniques have been introduced and widely accepted, like retrieval-augmentation generation (RAG), agents, and tools. Tools can query the database to answer questions from structured data files or perform groupings or other statistics. This unlocks huge opportunities, such as it can answer any question, but also poses threats, such as safety, because there is no control over the commands that are created. We would like to discuss whether we can create a new method that improves answers based on dataset/database via some interpretable ML methods, namely enhanced association rules. The advantage would be if the method can be also used in some safe technique like RAG. Association rules have a sound history. Since the introduction of CN2 and aproiri, many enhancements have been made. In parallel, enhanced association rules have been introduced and evolved over the last 40 years. The general problem is typically that there are too many rules. There are some techniques for handling it, but when LLM emerged, it turned out to be the best use case for the RAG technique for LLMs. We proposed a method that generates a ruleset based on defined knowledge patterns, then converts rules into text form via a rule-to-text converter, and includes the result as an RAG into LLM. We compared this method with ChatGPT (even with using agents) and we have discovered a significant improvement in answering questions based on the dataset. We have also tried several strategies how much rules to generate. We found this improvement interesting. Moreover, it can also be improved in many ways as future work, like incorporating other patterns, the use of rule mining as an agent, and many others.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ほぼ毎回大きな進歩を遂げています。
検索強化生成(RAG)、エージェント、ツールなど、多くの高度な技術が導入され、広く受け入れられている。
ツールはデータベースに問い合わせて構造化されたデータファイルからの質問に答えたり、グループ化やその他の統計処理を行うことができる。
これは、どんな質問にも答えられるような大きな機会を解放するだけでなく、生成されるコマンドを制御できないため、安全性などの脅威も生じます。
我々は、いくつかの解釈可能なMLメソッド、すなわち強化されたアソシエーションルールを通じて、データセット/データベースに基づく回答を改善する新しい方法を作成することができるかどうかを議論したい。
利点は、このメソッドがRAGのような安全なテクニックでも使用できることである。
協会の規則には健全な歴史がある。
CN2とアプロイリの導入以来、多くの改良がなされている。
並行して、強化されたアソシエーションルールが過去40年間に導入され、進化してきた。
一般的な問題は、ルールが多すぎることだ。
対処法はいくつかあるが, LLM が出現すると, RAG 技術が LLM に最適なユースケースであることが判明した。
定義した知識パターンに基づいてルールセットを生成し,ルールをルール・トゥ・テキスト・コンバータ経由でテキスト形式に変換し,RAGとして結果をLLMに変換する手法を提案する。
我々はこの手法をChatGPTと比較し(エージェントを用いても)、データセットに基づいて質問に答える際の大幅な改善を発見した。
私たちはまた、どれだけのルールを生成するかの戦略も試しました。
私たちはこの改善が面白いと感じた。
さらに、他のパターンを取り入れたり、ルールマイニングをエージェントとして利用するなど、将来の作業として多くの面で改善することも可能だ。
関連論文リスト
- GenKI: Enhancing Open-Domain Question Answering with Knowledge Integration and Controllable Generation in Large Language Models [75.25348392263676]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、外部リソースから知識を取得することで、Large Language Models (LLM) における幻覚を緩和する効果を証明している。
現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。
本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:53:29Z) - RuleR: Improving LLM Controllability by Rule-based Data Recycling [28.74786215922553]
ルールベースのデータリサイクリング(RuleR)は、事前定義されたルールに従って、複数の制約を元のデータサンプルに組み込むデータ拡張手法である。
ルールRは、スクラッチから新しいデータを生成する代わりに、ルールベースの編集を彼らのレスポンスに単純に適用し、元の命令にルール命令を追加することで、既存のデータを「リサイクル」する。
一般的な指示追従能力を維持しつつ,LLM制御性の向上におけるルールRの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-06-22T20:57:12Z) - RAFT: Adapting Language Model to Domain Specific RAG [75.63623523051491]
本稿では、ドメイン内の「オープンブック」設定において、モデルが質問に答える能力を改善するためのトレーニングレシピであるRetrieval Augmented FineTuning(RAFT)を紹介する。
RAFTは、質問に答える助けとなる関連文書から、動詞の正しいシーケンスを引用することで、これを達成します。
RAFTは、PubMed、HotpotQA、Gorillaデータセット全体のモデルのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-15T09:26:02Z) - Reinforcement Learning for Optimizing RAG for Domain Chatbots [4.12484724941528]
本稿では,FAQ(Frequently Asked Questions)データを用いて,ユーザの質問に回答するボットを構築するためのRAGベースのアプローチについて述べる。
我々はインフォメーションNCE損失を用いた社内検索埋め込みモデルをトレーニングし、実験結果から、インフォメーションモデルがよく知られた汎用的な公開埋め込みモデルよりもはるかにうまく機能することを実証した。
本稿では、ポリシーアクションを通じてRAGパイプラインと対話し、コストを最適化するためにポリシーを更新するRAG外部ポリシーベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-01-10T02:57:20Z) - Distilling Rule-based Knowledge into Large Language Models [90.7765003679106]
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
論文 参考訳(メタデータ) (2023-11-15T11:42:41Z) - One Model for All: Large Language Models are Domain-Agnostic Recommendation Systems [43.79001185418127]
本稿では,事前学習された大規模言語モデル(LLM)をドメインに依存しない推薦に利用するフレームワークを提案する。
具体的には、複数のドメインやアイテムタイトルからのユーザの振る舞いを文に混ぜて、ユーザとアイテムの表現を生成するためにLLMを使用する。
論文 参考訳(メタデータ) (2023-10-22T13:56:14Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Repository-Level Prompt Generation for Large Language Models of Code [28.98699307030983]
本稿では,提案手法を用いてサンプル固有のプロンプトを生成するフレームワークを提案する。
プロンプトプロポーザルはリポジトリ全体からコンテキストを取ります。
我々は,Google Codeアーカイブから取得したコードリポジトリを用いて,単行コード自動補完のタスクについて実験を行った。
論文 参考訳(メタデータ) (2022-06-26T10:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。