論文の概要: Towards Enhanced RAC Accessibility: Leveraging Datasets and LLMs
- arxiv url: http://arxiv.org/abs/2405.08792v1
- Date: Tue, 14 May 2024 17:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:08:43.137793
- Title: Towards Enhanced RAC Accessibility: Leveraging Datasets and LLMs
- Title(参考訳): RACアクセシビリティ向上に向けて - データセットとLLMの活用
- Authors: Edison Jair Bejarano Sepulveda, Nicolai Potes Hector, Santiago Pineda Montoya, Felipe Ivan Rodriguez, Jaime Enrique Orduy, Alec Rosales Cabezas, Danny Traslaviña Navarrete, Sergio Madrid Farfan,
- Abstract要約: 本稿では,コロンビア航空規則(RAC)をより使いやすくするために,大規模言語モデル(LLM)の可能性を探る。
最初のRACデータベースは、24,478の専門的なラベル付き質問・回答ペアと、RACアプリケーション専用の微調整LPMを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the potential of large language models (LLMs) to make the Aeronautical Regulations of Colombia (RAC) more accessible. Given the complexity and extensive technicality of the RAC, this study introduces a novel approach to simplifying these regulations for broader understanding. By developing the first-ever RAC database, which contains 24,478 expertly labeled question-and-answer pairs, and fine-tuning LLMs specifically for RAC applications, the paper outlines the methodology for dataset assembly, expert-led annotation, and model training. Utilizing the Gemma1.1 2b model along with advanced techniques like Unsloth for efficient VRAM usage and flash attention mechanisms, the research aims to expedite training processes. This initiative establishes a foundation to enhance the comprehensibility and accessibility of RAC, potentially benefiting novices and reducing dependence on expert consultations for navigating the aviation industry's regulatory landscape. You can visit the dataset (https://huggingface.co/somosnlp/gemma-1.1-2b-it_ColombiaRAC_FullyCurated_format_chatML_V1) and the model (https://huggingface.co/datasets/somosnlp/ColombiaRAC_FullyCurated) here.
- Abstract(参考訳): 本稿では,コロンビア航空規則(RAC)をより使いやすくするために,大規模言語モデル(LLM)の可能性を探る。
本研究は,RACの複雑さと広範囲な技術的性質を考慮し,これらの規制を単純化し,より広範な理解を行なおうとする新たなアプローチを提案する。
24,478の専門ラベル付き質問・回答ペアと、RACアプリケーション専用の微調整LCMを含む最初のRACデータベースを開発することにより、データセットアセンブリ、エキスパート主導アノテーション、モデルトレーニングの方法論を概説する。
Gemma1.1 2bモデルとUnslothのような高度なテクニックを併用して、効率的なVRAM使用とフラッシュアテンション機構を実現し、この研究はトレーニングプロセスの迅速化を目指している。
このイニシアチブは、RACの理解性とアクセシビリティを高める基盤を確立し、初心者に利益を与え、航空産業の規制環境をナビゲートするための専門家の協議への依存を減らす可能性がある。
データセット(https://huggingface.co/somosnlp/gemma-1.1-2b-it_ColombiaRAC_FullyCurated_format_chatML_V1)とモデル(https://huggingface.co/datasets/somosnlp/ColombiaRAC_FullyCurated)をここで見ることができる。
関連論文リスト
- Aggregating Low Rank Adapters in Federated Fine-tuning [0.0]
微調整された大きな言語モデルは高い計算資源とメモリ資源を必要とするため、かなりのコストがかかる。
そこで本研究では,機械学習モデルのファインチューニングで訓練された下級アダプターのアグリゲーション手法と,既存のアグリゲーション手法を比較した。
選択したGLUEベンチマークデータセットに対して,その性能を評価する。
論文 参考訳(メタデータ) (2025-01-10T20:24:33Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Aggregated Knowledge Model: Enhancing Domain-Specific QA with Fine-Tuned and Retrieval-Augmented Generation Models [0.0]
本稿では,クローズドドメイン質問応答システム(QA)の新たなアプローチを提案する。
ローレンス・バークレー国立研究所(LBL)科学情報技術(ScienceIT)ドメインの特定のニーズに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-24T00:49:46Z) - RACOON: An LLM-based Framework for Retrieval-Augmented Column Type Annotation with a Knowledge Graph [5.080968323993759]
我々は、Large Language Models(LLMs)が提供するコンテキスト情報を増やすために知識グラフを使用する方法を示す。
RACOONと呼ばれる我々の手法は、生成中に事前訓練されたパラメトリック知識と非パラメトリック知識を組み合わせることで、カラム型におけるLLMの性能を向上させる。
実験の結果, RACOONはバニラLEM推定と比較して最大0.21マイクロF-1の改善を達成できた。
論文 参考訳(メタデータ) (2024-09-22T18:39:27Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文 参考訳(メタデータ) (2024-06-13T23:08:06Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。