論文の概要: Towards Enhanced RAC Accessibility: Leveraging Datasets and LLMs
- arxiv url: http://arxiv.org/abs/2405.08792v1
- Date: Tue, 14 May 2024 17:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:08:43.137793
- Title: Towards Enhanced RAC Accessibility: Leveraging Datasets and LLMs
- Title(参考訳): RACアクセシビリティ向上に向けて - データセットとLLMの活用
- Authors: Edison Jair Bejarano Sepulveda, Nicolai Potes Hector, Santiago Pineda Montoya, Felipe Ivan Rodriguez, Jaime Enrique Orduy, Alec Rosales Cabezas, Danny Traslaviña Navarrete, Sergio Madrid Farfan,
- Abstract要約: 本稿では,コロンビア航空規則(RAC)をより使いやすくするために,大規模言語モデル(LLM)の可能性を探る。
最初のRACデータベースは、24,478の専門的なラベル付き質問・回答ペアと、RACアプリケーション専用の微調整LPMを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the potential of large language models (LLMs) to make the Aeronautical Regulations of Colombia (RAC) more accessible. Given the complexity and extensive technicality of the RAC, this study introduces a novel approach to simplifying these regulations for broader understanding. By developing the first-ever RAC database, which contains 24,478 expertly labeled question-and-answer pairs, and fine-tuning LLMs specifically for RAC applications, the paper outlines the methodology for dataset assembly, expert-led annotation, and model training. Utilizing the Gemma1.1 2b model along with advanced techniques like Unsloth for efficient VRAM usage and flash attention mechanisms, the research aims to expedite training processes. This initiative establishes a foundation to enhance the comprehensibility and accessibility of RAC, potentially benefiting novices and reducing dependence on expert consultations for navigating the aviation industry's regulatory landscape. You can visit the dataset (https://huggingface.co/somosnlp/gemma-1.1-2b-it_ColombiaRAC_FullyCurated_format_chatML_V1) and the model (https://huggingface.co/datasets/somosnlp/ColombiaRAC_FullyCurated) here.
- Abstract(参考訳): 本稿では,コロンビア航空規則(RAC)をより使いやすくするために,大規模言語モデル(LLM)の可能性を探る。
本研究は,RACの複雑さと広範囲な技術的性質を考慮し,これらの規制を単純化し,より広範な理解を行なおうとする新たなアプローチを提案する。
24,478の専門ラベル付き質問・回答ペアと、RACアプリケーション専用の微調整LCMを含む最初のRACデータベースを開発することにより、データセットアセンブリ、エキスパート主導アノテーション、モデルトレーニングの方法論を概説する。
Gemma1.1 2bモデルとUnslothのような高度なテクニックを併用して、効率的なVRAM使用とフラッシュアテンション機構を実現し、この研究はトレーニングプロセスの迅速化を目指している。
このイニシアチブは、RACの理解性とアクセシビリティを高める基盤を確立し、初心者に利益を与え、航空産業の規制環境をナビゲートするための専門家の協議への依存を減らす可能性がある。
データセット(https://huggingface.co/somosnlp/gemma-1.1-2b-it_ColombiaRAC_FullyCurated_format_chatML_V1)とモデル(https://huggingface.co/datasets/somosnlp/ColombiaRAC_FullyCurated)をここで見ることができる。
関連論文リスト
- Aggregated Knowledge Model: Enhancing Domain-Specific QA with Fine-Tuned and Retrieval-Augmented Generation Models [0.0]
本稿では,クローズドドメイン質問応答システム(QA)の新たなアプローチを提案する。
ローレンス・バークレー国立研究所(LBL)科学情報技術(ScienceIT)ドメインの特定のニーズに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-24T00:49:46Z) - RACOON: An LLM-based Framework for Retrieval-Augmented Column Type Annotation with a Knowledge Graph [5.080968323993759]
我々は、Large Language Models(LLMs)が提供するコンテキスト情報を増やすために知識グラフを使用する方法を示す。
RACOONと呼ばれる我々の手法は、生成中に事前訓練されたパラメトリック知識と非パラメトリック知識を組み合わせることで、カラム型におけるLLMの性能を向上させる。
実験の結果, RACOONはバニラLEM推定と比較して最大0.21マイクロF-1の改善を達成できた。
論文 参考訳(メタデータ) (2024-09-22T18:39:27Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Exploring Advanced Large Language Models with LLMsuite [1.2058143465239939]
このチュートリアルでは、大規模言語モデルの開発における進歩と課題について説明する。
Retrieval Augmented Generation (RAG)、Program-Aided Language Models (PAL)、ReActやLangChainといったフレームワークなどのソリューションを提案する。
論文 参考訳(メタデータ) (2024-07-01T05:37:17Z) - Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文 参考訳(メタデータ) (2024-06-13T23:08:06Z) - Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。
この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Advancing Graph Representation Learning with Large Language Models: A
Comprehensive Survey of Techniques [37.60727548905253]
グラフ表現学習(GRL)とLLM(Large Language Models)の統合は、複雑なデータ構造を分析する上で重要な進化である。
このコラボレーションは、LLMの洗練された言語機能を活用して、グラフモデルの文脈的理解と適応性を改善する。
LLMをグラフ領域に統合する研究団体が増えているにもかかわらず、コアコンポーネントとオペレーションを深く分析する包括的なレビューは特に欠落している。
論文 参考訳(メタデータ) (2024-02-04T05:51:14Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z) - Towards Building the Federated GPT: Federated Instruction Tuning [66.7900343035733]
本稿では,大規模言語モデル(LLM)の命令チューニングのための学習フレームワークとして,FedIT(Federated Instruction Tuning)を紹介する。
我々は,FedITを用いてクライアントの終端における多種多様な命令セットを活用することにより,ローカル命令のみを限定した集中学習に比べ,LLMの性能を向上させることを実証した。
論文 参考訳(メタデータ) (2023-05-09T17:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。