論文の概要: AdaQE-CG: Adaptive Query Expansion for Web-Scale Generative AI Model and Data Card Generation
- arxiv url: http://arxiv.org/abs/2604.09617v1
- Date: Mon, 16 Mar 2026 04:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.562019
- Title: AdaQE-CG: Adaptive Query Expansion for Web-Scale Generative AI Model and Data Card Generation
- Title(参考訳): AdaQE-CG: Webスケール生成AIモデルとデータカード生成のための適応的クエリ拡張
- Authors: Haoxuan Zhang, Ruochi Li, Zhenni Liang, Mehri Sattari, Phat Vo, Collin Qu, Ting Xiao, Junhua Ding, Yang Zhang, Haihua Chen,
- Abstract要約: 本稿では,動的情報抽出とカード間知識伝達を組み合わせたカード生成用適応クエリ拡張フレームワークであるAdaQE-CGを提案する。
AdaQE-CGは、既存のアプローチを大幅に上回り、人間によるデータカードを超え、モデルカードの人間レベルの品質にアプローチする。
私たちは、GAIドキュメントを評価するための、最初の大規模でエキスパートアノテートされたベンチマークであるMetaGAI-Benchを紹介します。
- 参考スコア(独自算出の注目度): 6.289039465679207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transparent and standardized documentation is essential for building trustworthy generative AI (GAI) systems. However, existing automated methods for generating model and data cards still face three major challenges: (i) static templates, as most systems rely on fixed query templates that cannot adapt to diverse paper structures or evolving documentation requirements; (ii) information scarcity, since web-scale repositories such as Hugging Face often contain incomplete or inconsistent metadata, leading to missing or noisy information; and (iii) lack of benchmarks, as the absence of standardized datasets and evaluation protocols hinders fair and reproducible assessment of documentation quality. To address these limitations, we propose AdaQE-CG, an Adaptive Query Expansion for Card Generation framework that combines dynamic information extraction with cross-card knowledge transfer. Its Intra-Paper Extraction via Context-Aware Query Expansion (IPE-QE) module iteratively refines extraction queries to recover richer and more complete information from scientific papers and repositories, while its Inter-Card Completion using the MetaGAI Pool (ICC-MP) module fills missing fields by transferring semantically relevant content from similar cards in a curated dataset. In addition, we introduce MetaGAI-Bench, the first large-scale, expert-annotated benchmark for evaluating GAI documentation. Comprehensive experiments across five quality dimensions show that AdaQE-CG substantially outperforms existing approaches, exceeds human-authored data cards, and approaches human-level quality for model cards. Code, prompts, and data are publicly available at: https://github.com/haoxuan-unt2024/AdaQE-CG.
- Abstract(参考訳): 透過的で標準化されたドキュメントは、信頼できる生成AI(GAI)システムを構築するために不可欠である。
しかし、モデルとデータカードを生成する既存の自動メソッドは、以下の3つの大きな課題に直面している。
i) 静的テンプレートは、多くのシステムが様々な紙構造やドキュメントの要求の進化に適応できない固定されたクエリテンプレートに依存しているためです。
(II)情報不足,Hugging FaceのようなWebスケールリポジトリは,不完全あるいは一貫性のないメタデータを多く含んでいて,不完全あるいはノイズの多い情報につながるため,
3) 標準化されたデータセットや評価プロトコルがないことは、文書品質の公平かつ再現可能な評価を妨げるため、ベンチマークの欠如。
これらの制約に対処するため,動的情報抽出とカード間知識伝達を組み合わせたAdaptive Query Expansion for Card GenerationフレームワークであるAdaQE-CGを提案する。
Context-Aware Query Expansion (IPE-QE)モジュールによるページ内抽出は、抽出クエリを反復的に洗練し、科学論文やリポジトリからよりリッチで完全な情報を復元する。
さらに、GAIドキュメントを評価するための、最初の大規模でエキスパートアノテートされたベンチマークであるMetaGAI-Benchを紹介します。
5次元にわたる総合的な実験により、AdaQE-CGは、既存のアプローチを著しく上回り、人間によるデータカードを超え、モデルカードの人間レベルの品質に近づいた。
コード、プロンプト、データは、https://github.com/haoxuan-unt2024/AdaQE-CGで公開されている。
関連論文リスト
- NaviRAG: Towards Active Knowledge Navigation for Retrieval-Augmented Generation [50.16741209529908]
NaviRAGは、パッシブセグメント検索からアクティブな知識ナビゲーションに移行する新しいフレームワークである。
NaviRAGは従来のRAGベースラインよりも検索リコールとエンドツーエンドの応答性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2026-04-14T14:07:01Z) - Model Editing for New Document Integration in Generative Information Retrieval [110.90609826290968]
生成検索(GR)は文書識別子(docID)の生成として情報検索(IR)タスクを再構成する
既存のGRモデルは、新たに追加されたドキュメントへの一般化が不十分で、しばしば正しいドキュメントIDを生成できない。
DOMEは,GRモデルを非表示文書に効果的かつ効率的に適応する新しい手法である。
論文 参考訳(メタデータ) (2026-03-03T09:13:38Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。
我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。
文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文 参考訳(メタデータ) (2025-05-16T12:31:29Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Multi-Facet Blending for Faceted Query-by-Example Retrieval [5.156059061769101]
本稿では,多面体ブレンディング(FaBle)拡張法を提案する。
モジュール化によって、事前に定義されたファセットの知識やラベルが不要になります。
1K文書上のFaBle拡張は、ファセット条件埋め込みの訓練を著しく支援する。
論文 参考訳(メタデータ) (2024-12-02T12:32:19Z) - Automatic Generation of Model and Data Cards: A Step Towards Responsible AI [23.42842241759459]
大規模言語モデル(LLM)を用いた自動生成手法を提案する。
CardBenchは4.8kモデルカードと1.4kデータカードから集約された包括的なデータセットである。
当社のアプローチでは、生成されたモデルとデータカードにおける完全性、客観性、忠実性が向上しています。
論文 参考訳(メタデータ) (2024-05-10T06:14:07Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。