論文の概要: Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety
- arxiv url: http://arxiv.org/abs/2504.07022v1
- Date: Wed, 09 Apr 2025 16:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:42.446120
- Title: Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety
- Title(参考訳): 交通安全における文書クエリの検索拡張生成モデルの評価
- Authors: Chad Melton, Alex Sorokine, Steve Peterson,
- Abstract要約: 本研究では、ChatGPT、GoogleのVertex AI、ORNL Retrieval Augmented Generation augmented LLaMA 2、LLaMAの3つの微調整生成モデルの性能を評価する。
経路計画と許容要件に関連する現実的なクエリを100個開発した。
その結果、RAGで強化されたLLaMAモデルはVertex AIとChatGPTを大きく上回っており、より詳細で一般的に正確な情報を提供していることがわかった。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License:
- Abstract: Applications of generative Large Language Models LLMs are rapidly expanding across various domains, promising significant improvements in workflow efficiency and information retrieval. However, their implementation in specialized, high-stakes domains such as hazardous materials transportation is challenging due to accuracy and reliability concerns. This study evaluates the performance of three fine-tuned generative models, ChatGPT, Google's Vertex AI, and ORNL Retrieval Augmented Generation augmented LLaMA 2 and LLaMA in retrieving regulatory information essential for hazardous material transportation compliance in the United States. Utilizing approximately 40 publicly available federal and state regulatory documents, we developed 100 realistic queries relevant to route planning and permitting requirements. Responses were qualitatively rated based on accuracy, detail, and relevance, complemented by quantitative assessments of semantic similarity between model outputs. Results demonstrated that the RAG-augmented LLaMA models significantly outperformed Vertex AI and ChatGPT, providing more detailed and generally accurate information, despite occasional inconsistencies. This research introduces the first known application of RAG in transportation safety, emphasizing the need for domain-specific fine-tuning and rigorous evaluation methodologies to ensure reliability and minimize the risk of inaccuracies in high-stakes environments.
- Abstract(参考訳): 生成型大規模言語モデルの応用 LLMは、様々な領域にわたって急速に拡張され、ワークフロー効率と情報検索の大幅な改善が期待できる。
しかし, 危険物質輸送などの専門分野におけるその実装は, 正確性や信頼性の懸念から困難である。
本研究では、米国における有害物質輸送コンプライアンスに不可欠な規制情報を取得するために、ChatGPT、GoogleのVertex AI、ORNL Retrieval Augmented Generation augmented LLaMA 2、LLaMAの3つの微調整生成モデルの性能を評価する。
約40の連邦および州規制文書を利用して、ルートプランニングと要件の許容に関連する現実的なクエリを100個開発した。
応答は精度,詳細,関連性に基づいて質的に評価され,モデル出力間の意味的類似性の定量的評価によって補完された。
その結果、RAG強化されたLLaMAモデルはVertex AIとChatGPTを著しく上回り、時折矛盾があるにもかかわらず、より詳細で一般的に正確な情報を提供することを示した。
本研究は、RAGの交通安全への最初の応用として、信頼性を確保し、高精度環境における不正確なリスクを最小限に抑えるために、ドメイン固有の微調整・厳密な評価手法の必要性を強調した。
関連論文リスト
- The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - VERA: Validation and Enhancement for Retrieval Augmented systems [0.0]
textbfValidation and textbfEnhancement for textbfRetrieval textbfAugmented system を提案する。
VERAは、外部検索が必要なかどうかを最初にチェックし、検索したコンテキストの関連性と冗長性を評価し、非必要情報の除去のために精査する評価器-既存のLCMを使用している。
論文 参考訳(メタデータ) (2024-09-18T16:10:47Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Benchmark Data Contamination of Large Language Models: A Survey [5.806534973464769]
本稿では,Large Language Models (LLMs) 評価におけるベンチマークデータ汚染(BDC)の複雑な課題について述べる。
従来のベンチマークに関連するリスクを軽減するための代替アセスメント手法を検討する。
論文 参考訳(メタデータ) (2024-06-06T16:41:39Z) - Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models [54.55088169443828]
CoN(Chain-of-Noting)は、ノイズや無関係な文書、未知のシナリオの処理において、ALMの堅牢性を改善することを目的とした、新しいアプローチである。
CoNは、完全にノイズの多い検索された文書が与えられるEMスコアの+7.9と、トレーニング済みの知識範囲外にあるリアルタイム質問に対する拒絶率+10.5の平均的な改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T18:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。