論文の概要: Responsible Retrieval Augmented Generation for Climate Decision Making from Documents
- arxiv url: http://arxiv.org/abs/2410.23902v1
- Date: Thu, 31 Oct 2024 13:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:13.441740
- Title: Responsible Retrieval Augmented Generation for Climate Decision Making from Documents
- Title(参考訳): 文書から作成した気候決定のための応答性検索生成
- Authors: Matyas Juhasz, Kalyan Dutia, Henry Franks, Conor Delahunty, Patrick Fawbert Mills, Harrison Pim,
- Abstract要約: 気候関連文書に適した領域特化次元を持つ新しい評価フレームワークを提案する。
次に,このフレームワークを用いて検索・拡張生成手法を評価し,プロトタイプツール内での検索・生成品質を評価する。
さらに、気候領域におけるこれらのシステムのより広範な採用と堅牢な評価を促進することを目的として、人間による注釈付きデータセットとスケーラブルな自動評価ツールを公開します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Climate decision making is constrained by the complexity and inaccessibility of key information within lengthy, technical, and multi-lingual documents. Generative AI technologies offer a promising route for improving the accessibility of information contained within these documents, but suffer from limitations. These include (1) a tendency to hallucinate or mis-represent information, (2) difficulty in steering or guaranteeing properties of generated output, and (3) reduced performance in specific technical domains. To address these challenges, we introduce a novel evaluation framework with domain-specific dimensions tailored for climate-related documents. We then apply this framework to evaluate Retrieval-Augmented Generation (RAG) approaches and assess retrieval- and generation-quality within a prototype tool that answers questions about individual climate law and policy documents. In addition, we publish a human-annotated dataset and scalable automated evaluation tools, with the aim of facilitating broader adoption and robust assessment of these systems in the climate domain. Our findings highlight the key components of responsible deployment of RAG to enhance decision-making, while also providing insights into user experience (UX) considerations for safely deploying such systems to build trust with users in high-risk domains.
- Abstract(参考訳): 気候決定は、長文、技術的、多言語文書における重要な情報の複雑さと到達不能性によって制約される。
生成AI技術は、これらのドキュメントに含まれる情報のアクセシビリティを改善するための有望なルートを提供するが、制限に悩まされる。
1)情報の幻覚化又は誤表現の傾向、(2)生成した出力の特性の操縦又は保証の難しさ、(3)特定の技術領域における性能の低下などである。
これらの課題に対処するために、気候関連文書に適したドメイン特化次元を持つ新しい評価フレームワークを導入する。
次に, この枠組みを適用して, 個別の気候法と政策文書に関する質問に答えるプロトタイプツールを用いて, 検索・生成品質の評価を行う。
さらに、気候領域におけるこれらのシステムのより広範な採用と堅牢な評価を促進することを目的として、人間による注釈付きデータセットとスケーラブルな自動評価ツールを公開します。
また、リスクの高いドメインにおけるユーザとの信頼を構築するために、そのようなシステムを安全にデプロイするためのユーザエクスペリエンス(UX)の考察も提供する。
関連論文リスト
- CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - RAG based Question-Answering for Contextual Response Prediction System [0.4660328753262075]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて汎用性を示している。
Retrieval Augmented Generation (RAG)は、この課題に対処するための有望な技術として登場した。
本稿では,産業用ユースケースにRAG機能を備えたLCMを用いたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-05T17:14:23Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Safeguarding Marketing Research: The Generation, Identification, and Mitigation of AI-Fabricated Disinformation [0.26107298043931204]
生成AIは、人間のコントリビューションを忠実に模倣するコンテンツを生成する能力を確立している。
これらのモデルは、世論の操作や認識の歪曲に利用することができ、結果としてデジタルプラットフォームに対する信頼が低下する。
本研究は,マーケティング文献と実践に3つの方法で貢献する。
論文 参考訳(メタデータ) (2024-03-17T13:08:28Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。
本稿では,GARにおけるQFSの役割について述べる。
コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文 参考訳(メタデータ) (2023-07-14T19:25:35Z) - Dynamic Documentation for AI Systems [0.0]
本稿では,AIシステムにおける現在のドキュメンテーションプロトコルの限界を示す。
我々は、AIシステムを理解し評価するための新しいパラダイムとして、動的ドキュメンテーションを議論する。
論文 参考訳(メタデータ) (2023-03-20T04:23:07Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。