論文の概要: Applications of Large Language Models in Data Processing: Innovative
Approaches to Segmenting and Renewing Information
- arxiv url: http://arxiv.org/abs/2311.16267v1
- Date: Mon, 27 Nov 2023 19:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:17:06.418749
- Title: Applications of Large Language Models in Data Processing: Innovative
Approaches to Segmenting and Renewing Information
- Title(参考訳): 大規模言語モデルのデータ処理への応用:情報分割・更新への革新的アプローチ
- Authors: Yu-Chen Lin, Akhilesh Kumar, Wen-Liang Zhang, Norman Chang, Muhammad
Zakir, Rucha Apte, Chao Wang, Jyh-Shing Roger Jang
- Abstract要約: 本稿では,「特定ドメイン」アプリケーションにおけるコード生成の効果的な手法について検討する。
実際のプロダクトを例として、ユーザマニュアルやAPIドキュメント、その他のデータを提供しています。
我々は,様々なプロンプト技術を用いて,単純・中複雑タスクにおいて約70%の精度を達成している。
- 参考スコア(独自算出の注目度): 8.082023242531347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our paper investigates effective methods for code generation in
"specific-domain" applications, including the use of Large Language Models
(LLMs) for data segmentation and renewal, as well as stimulating deeper
thinking in LLMs through prompt adjustments. Using a real company product as an
example, we provide user manuals, API documentation, and other data. The ideas
discussed in this paper help segment and then convert this data into semantic
vectors to better reflect their true positioning. Subsequently, user
requirements are transformed into vectors to retrieve the most relevant
content, achieving about 70% accuracy in simple to medium-complexity tasks
through various prompt techniques. This paper is the first to enhance
specific-domain code generation effectiveness from this perspective.
Additionally, we experiment with generating more scripts from a limited number
using llama2-based fine-tuning to test its effectiveness in professional domain
code generation. This is a challenging and promising field, and once achieved,
it will not only lead to breakthroughs in LLM development across multiple
industries but also enable LLMs to understand and learn any new knowledge
effectively.
- Abstract(参考訳): 本稿では,データセグメンテーションや更新にLarge Language Models (LLMs) を用いることや,迅速な調整によるLLMにおける深い思考の促進など,特定ドメインアプリケーションにおけるコード生成の効果的な方法を検討する。
実際のプロダクトを例として、ユーザマニュアルやAPIドキュメント、その他のデータを提供しています。
この論文で議論されているアイデアは、それらのデータを意味ベクトルに変換し、真の位置を反映するのに役立つ。
その後、ユーザ要求をベクトルに変換して最も関連性の高いコンテンツを検索し、様々なプロンプト技術を用いて、単純・中複雑タスクで約70%の精度で処理する。
この観点から特定ドメインコード生成の有効性を高めるのは,本論文が初めてである。
さらに、llama2ベースの微調整を用いて限られた数からより多くのスクリプトを生成し、プロのドメインコード生成の有効性をテストする実験を行った。
これは挑戦的で有望な分野であり、一度達成すれば、複数の産業でLLM開発が進展するだけでなく、LLMが新たな知識を効果的に理解し、学べるようになるでしょう。
関連論文リスト
- Improving Retrieval for RAG based Question Answering Models on Financial Documents [0.0]
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。
高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
論文 参考訳(メタデータ) (2024-03-23T00:49:40Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - RA-Rec: An Efficient ID Representation Alignment Framework for LLM-based Recommendation [9.606111709136675]
LLMに基づくレコメンデーションのための効率的なID表現フレームワークであるRA-Recを提案する。
RA-Recは最先端のメソッドを大幅に上回り、最大3.0%のHitRate@100の改善を実現している。
論文 参考訳(メタデータ) (2024-02-07T02:14:58Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Instruction Fusion: Advancing Prompt Evolution through Hybridization [28.691691883519542]
本稿では,既存の即時進化手法の制約について検討し,新しいアプローチであるインストラクション・フュージョン(IF)を導入する。
IFは、ハイブリッド化プロセスを通じて、2つの異なるプロンプトを革新的に組み合わせ、コードLLMのトレーニングプロンプトの進化を強化する。
実験の結果,提案手法は従来の手法の欠点を効果的に解決し,コードLLMの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-25T11:00:37Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Towards Better Serialization of Tabular Data for Few-shot Classification
with Large Language Models [0.0]
本稿では,3つの新しいシリアライズ手法を提案する。
この方法は、ドメイン固有のデータセットを処理する際のLLMの性能を大幅に向上させる。
従来のモデルよりも正確さと効率性が優れていることを実証します。
論文 参考訳(メタデータ) (2023-12-18T21:11:17Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。