論文の概要: Responsible Retrieval Augmented Generation for Climate Decision Making from Documents
- arxiv url: http://arxiv.org/abs/2410.23902v1
- Date: Thu, 31 Oct 2024 13:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:42.821162
- Title: Responsible Retrieval Augmented Generation for Climate Decision Making from Documents
- Title(参考訳): 文書から作成した気候決定のための応答性検索生成
- Authors: Matyas Juhasz, Kalyan Dutia, Henry Franks, Conor Delahunty, Patrick Fawbert Mills, Harrison Pim,
- Abstract要約: 気候関連文書に適した領域特化次元を持つ新しい評価フレームワークを提案する。
次に,このフレームワークを用いて検索・拡張生成手法を評価し,プロトタイプツール内での検索・生成品質を評価する。
さらに、気候領域におけるこれらのシステムのより広範な採用と堅牢な評価を促進することを目的として、人間による注釈付きデータセットとスケーラブルな自動評価ツールを公開します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Climate decision making is constrained by the complexity and inaccessibility of key information within lengthy, technical, and multi-lingual documents. Generative AI technologies offer a promising route for improving the accessibility of information contained within these documents, but suffer from limitations. These include (1) a tendency to hallucinate or mis-represent information, (2) difficulty in steering or guaranteeing properties of generated output, and (3) reduced performance in specific technical domains. To address these challenges, we introduce a novel evaluation framework with domain-specific dimensions tailored for climate-related documents. We then apply this framework to evaluate Retrieval-Augmented Generation (RAG) approaches and assess retrieval- and generation-quality within a prototype tool that answers questions about individual climate law and policy documents. In addition, we publish a human-annotated dataset and scalable automated evaluation tools, with the aim of facilitating broader adoption and robust assessment of these systems in the climate domain. Our findings highlight the key components of responsible deployment of RAG to enhance decision-making, while also providing insights into user experience (UX) considerations for safely deploying such systems to build trust with users in high-risk domains.
- Abstract(参考訳): 気候決定は、長文、技術的、多言語文書における重要な情報の複雑さと到達不能性によって制約される。
生成AI技術は、これらのドキュメントに含まれる情報のアクセシビリティを改善するための有望なルートを提供するが、制限に悩まされる。
1)情報の幻覚化又は誤表現の傾向、(2)生成した出力の特性の操縦又は保証の難しさ、(3)特定の技術領域における性能の低下などである。
これらの課題に対処するために、気候関連文書に適したドメイン特化次元を持つ新しい評価フレームワークを導入する。
次に, この枠組みを適用して, 個別の気候法と政策文書に関する質問に答えるプロトタイプツールを用いて, 検索・生成品質の評価を行う。
さらに、気候領域におけるこれらのシステムのより広範な採用と堅牢な評価を促進することを目的として、人間による注釈付きデータセットとスケーラブルな自動評価ツールを公開します。
また、リスクの高いドメインにおけるユーザとの信頼を構築するために、そのようなシステムを安全にデプロイするためのユーザエクスペリエンス(UX)の考察も提供する。
関連論文リスト
- Information Retrieval in the Age of Generative AI: The RGB Model [77.96475639967431]
本稿では,生成型AIツールの利用の増加に伴って生じる複雑な情報ダイナミクスについて,新たな定量的アプローチを提案する。
本稿では,新たなトピックに応答して情報の生成,索引付け,普及を特徴付けるモデルを提案する。
以上の結果から,AI導入の急激なペースとユーザ依存度の増加は,不正確な情報拡散のリスクを増大させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-29T10:21:40Z) - Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety [0.7373617024876725]
本研究では、ChatGPT、GoogleのVertex AI、ORNL Retrieval Augmented Generation augmented LLaMA 2、LLaMAの3つの微調整生成モデルの性能を評価する。
経路計画と許容要件に関連する現実的なクエリを100個開発した。
その結果、RAGで強化されたLLaMAモデルはVertex AIとChatGPTを大きく上回っており、より詳細で一般的に正確な情報を提供していることがわかった。
論文 参考訳(メタデータ) (2025-04-09T16:37:03Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。
RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。
RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文 参考訳(メタデータ) (2025-02-08T06:50:47Z) - Powering LLM Regulation through Data: Bridging the Gap from Compute Thresholds to Customer Experiences [0.0]
本稿では,計算レベルのしきい値と一般化モデル評価に着目した現在の規制手法は,特定のLCMベースのユーザエクスペリエンスの安全性と有効性を保証するには不十分である,と論じる。
本稿では,ユーザによる実際の体験と評価のための高品質データセットのキュレーションを中心とした認定プロセスへの移行を提案する。
論文 参考訳(メタデータ) (2025-01-12T16:20:40Z) - CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - RAG based Question-Answering for Contextual Response Prediction System [0.4660328753262075]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて汎用性を示している。
Retrieval Augmented Generation (RAG)は、この課題に対処するための有望な技術として登場した。
本稿では,産業用ユースケースにRAG機能を備えたLCMを用いたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-05T17:14:23Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Safeguarding Marketing Research: The Generation, Identification, and Mitigation of AI-Fabricated Disinformation [0.26107298043931204]
生成AIは、人間のコントリビューションを忠実に模倣するコンテンツを生成する能力を確立している。
これらのモデルは、世論の操作や認識の歪曲に利用することができ、結果としてデジタルプラットフォームに対する信頼が低下する。
本研究は,マーケティング文献と実践に3つの方法で貢献する。
論文 参考訳(メタデータ) (2024-03-17T13:08:28Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。
本稿では,GARにおけるQFSの役割について述べる。
コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文 参考訳(メタデータ) (2023-07-14T19:25:35Z) - Dynamic Documentation for AI Systems [0.0]
本稿では,AIシステムにおける現在のドキュメンテーションプロトコルの限界を示す。
我々は、AIシステムを理解し評価するための新しいパラダイムとして、動的ドキュメンテーションを議論する。
論文 参考訳(メタデータ) (2023-03-20T04:23:07Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。