論文の概要: Learning from AVA: Early Lessons from a Curated and Trustworthy Generative AI for Policy and Development Research
- arxiv url: http://arxiv.org/abs/2604.17843v1
- Date: Mon, 20 Apr 2026 05:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.718968
- Title: Learning from AVA: Early Lessons from a Curated and Trustworthy Generative AI for Policy and Development Research
- Title(参考訳): AVAから学ぶ: 政策・開発研究のためのキュレーションされた信頼できる生成AIから学ぶ
- Authors: Nimisha Karnatak, Mohamad Chatila, Daniel Alejandro Pinzón Hernández, Reza Yazdanfar, Michelle Dugas, Renos Vakis,
- Abstract要約: 汎用LSMは、開発と政策の専門家に誤った情報リスクをもたらす。
我々は4000以上の世界銀行報告のキュレートされたライブラリ上に構築されたGenAIプラットフォームであるAVAを紹介する。
- 参考スコア(独自算出の注目度): 0.8941624592392746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose LLMs pose misinformation risks for development and policy experts, lacking epistemic humility for verifiable outputs. We present AVA (AI + Verified Analysis), a GenAI platform built on a curated library of over 4,000 World Bank Reports with multilingual capabilities. AVA's multi-agent pipeline enables users to query and receive evidence-based syntheses. It operationalizes epistemic humility through two mechanisms: citation verifiability (tracing claims to sources) and reasoned abstention (declining unsupported queries with justification and redirection). We conducted an in-the-wild evaluation with over 2,200 individuals from heterogeneous organisations and roles in 116 countries, via log analysis, surveys, and 20 interviews. Difference-in-Differences estimates associate sustained engagement with 2.4-3.9 hours saved weekly. Qualitatively, participants used AVA as a specialized "evidence engine"; reasoned abstention clarified scope boundaries, and trust was calibrated through institutional provenance and page-anchored citations. We contribute design guidelines for specialized AI and articulate a vision for "ecosystem-aware" Humble AI.
- Abstract(参考訳): 汎用LSMは、開発と政策の専門家にとって誤った情報リスクを生じさせ、検証可能なアウトプットに対する認識の謙虚さを欠いている。
AVA(AI + Verified Analysis)は、4000以上のWorld Bank Reportsのキュレートされたライブラリ上に構築された、多言語機能を備えたGenAIプラットフォームである。
AVAのマルチエージェントパイプラインは、エビデンスベースの合成のクエリと受信を可能にする。
引用検証可能性(ソースへの要求をトラシングする)と推論棄却(正当化とリダイレクトを伴うデクリニングなしクエリ)という2つのメカニズムを通じて、てんかんの謙虚さを運用する。
異種組織から2,200人以上の個人と116か国で,ログ分析,調査,20のインタビューを通じて調査を行った。
差分差分推定は、毎週2.4-3.9時間節約されたエンゲージメントと関連している。
定性的には、参加者はAVAを特別な「証拠エンジン」として使用し、棄却はスコープの境界を明確にし、信頼は制度上の証明とページアンカレッドによる引用によって校正された。
専門的なAIの設計ガイドラインにコントリビュートし、Humble AIのビジョンを明確にする。
関連論文リスト
- AI-Assisted Peer Review at Scale: The AAAI-26 AI Review Pilot [45.90272517740283]
本稿では,AI支援ピアレビューの大規模展開について報告する。
AAAI-26のすべてのメイントラックは、最先端のシステムから明確に特定されたAIレビューを受け取りました。
論文 参考訳(メタデータ) (2026-04-15T14:51:07Z) - Agentic Explainable Artificial Intelligence (Agentic XAI) Approach To Explore Better Explanation [7.268064183717186]
本研究では,SHAPをベースとした説明可能性とマルチモーダルLCMによる反復的改善を併用したエージェントXAIフレームワークを提案する。
わが国26田の米収量データを用いて,この枠組みを農業推薦システムとして検証した。
論文 参考訳(メタデータ) (2025-12-24T09:19:15Z) - Enabling Ethical AI: A case study in using Ontological Context for Justified Agentic AI Decisions [0.0]
著者らは、このプロセスがどのように制度的な知識を捉え、応答品質と効率を改善し、制度的な記憶を緩和するかを示している。
決定は明確で検査可能な証拠と専門家と非専門家の両方への推論に基礎を置いている。
論文 参考訳(メタデータ) (2025-12-04T14:06:35Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - What Makes a Good Natural Language Prompt? [72.3282960118995]
我々は,2022年から2025年にかけて,NLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文を対象としたメタ分析調査を実施している。
本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。
次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
論文 参考訳(メタデータ) (2025-06-07T23:19:27Z) - Automatic answering of scientific questions using the FACTS-V1 framework: New methods in research to increase efficiency through the use of AI [0.0]
本稿では FACTS-V1 (Filtering and Analysis of Content in Textual Sources) フレームワークのプロトタイプについて述べる。
このアプリケーションの助けを借りて、多数の科学論文を自動的に抽出し、分析し、オープンアクセス文書サーバから解釈することができる。
このフレームワークの目的は、既存のデータに基づいた将来の科学的質問に対するレコメンデーションを提供することである。
論文 参考訳(メタデータ) (2024-12-01T18:55:39Z) - Harnessing AI for efficient analysis of complex policy documents: a case study of Executive Order 14110 [44.99833362998488]
法律、規制、執行命令などの政策文書は、社会の形成に不可欠である。
本研究の目的は、政策分析の合理化におけるAIの可能性を評価し、現在のAIアプローチの強みと限界を特定することである。
論文 参考訳(メタデータ) (2024-06-10T11:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。