論文の概要: Dynamic-KGQA: A Scalable Framework for Generating Adaptive Question Answering Datasets
- arxiv url: http://arxiv.org/abs/2503.05049v1
- Date: Thu, 06 Mar 2025 23:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:52.274918
- Title: Dynamic-KGQA: A Scalable Framework for Generating Adaptive Question Answering Datasets
- Title(参考訳): Dynamic-KGQA: 適応的な質問回答データセットを生成するためのスケーラブルなフレームワーク
- Authors: Preetam Prabhu Srikar Dammu, Himanshu Naidu, Chirag Shah,
- Abstract要約: 知識グラフから適応的なQAデータセットを生成するスケーラブルなフレームワークであるDynamic-KGQAを紹介する。
固定ベンチマークとは異なり、Dynamic-KGQAは、基盤となるディストリビューションを保持しながら、実行毎に新しいデータセットバリアントを生成する。
Dynamic-KGQAは、KGQAモデルのトレーニングと評価を容易にするコンパクトでセマンティックなコヒーレントなサブグラフを生成する。
- 参考スコア(独自算出の注目度): 9.785129730843435
- License:
- Abstract: As question answering (QA) systems advance alongside the rapid evolution of foundation models, the need for robust, adaptable, and large-scale evaluation benchmarks becomes increasingly critical. Traditional QA benchmarks are often static and publicly available, making them susceptible to data contamination and memorization by large language models (LLMs). Consequently, static benchmarks may overestimate model generalization and hinder a reliable assessment of real-world performance. In this work, we introduce Dynamic-KGQA, a scalable framework for generating adaptive QA datasets from knowledge graphs (KGs), designed to mitigate memorization risks while maintaining statistical consistency across iterations. Unlike fixed benchmarks, Dynamic-KGQA generates a new dataset variant on every run while preserving the underlying distribution, enabling fair and reproducible evaluations. Furthermore, our framework provides fine-grained control over dataset characteristics, supporting domain-specific and topic-focused QA dataset generation. Additionally, Dynamic-KGQA produces compact, semantically coherent subgraphs that facilitate both training and evaluation of KGQA models, enhancing their ability to leverage structured knowledge effectively. To align with existing evaluation protocols, we also provide static large-scale train/test/validation splits, ensuring comparability with prior methods. By introducing a dynamic, customizable benchmarking paradigm, Dynamic-KGQA enables a more rigorous and adaptable evaluation of QA systems.
- Abstract(参考訳): 基礎モデルの急速な進化とともにQA(QA)システムが進歩するにつれて、堅牢で適応性があり、大規模な評価ベンチマークの必要性がますます重要になっている。
従来のQAベンチマークは静的で公開されており、大きな言語モデル(LLM)によるデータの汚染や暗記の影響を受けやすい。
その結果、静的なベンチマークはモデルの一般化を過大評価し、実際の性能の信頼性を損なう可能性がある。
本研究では,知識グラフ(KG)から適応的なQAデータセットを生成するためのスケーラブルなフレームワークであるDynamic-KGQAを紹介する。
固定ベンチマークとは異なり、Dynamic-KGQAは、基礎となるディストリビューションを保持しながら、実行毎に新しいデータセットバリアントを生成し、公正で再現可能な評価を可能にする。
さらに,本フレームワークは,データセットの特徴を詳細に制御し,ドメイン固有およびトピック指向のQAデータセット生成をサポートする。
さらに、Dynamic-KGQAは、KGQAモデルのトレーニングと評価の両方を容易にし、構造化知識を効果的に活用する能力を高める、コンパクトでセマンティックなコヒーレントなサブグラフを生成する。
既存の評価プロトコルに合わせて,静的な大規模列車/テスト/バリデーションスプリットも提供し,従来の手法との互換性を確保する。
動的でカスタマイズ可能なベンチマークパラダイムを導入することで、動的KGQAはQAシステムのより厳密で適応可能な評価を可能にする。
関連論文リスト
- Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Developing a Dataset-Adaptive, Normalized Metric for Machine Learning Model Assessment: Integrating Size, Complexity, and Class Imbalance [0.0]
精度、F1スコア、精度といった従来のメトリクスは、機械学習モデルを評価するために頻繁に使用される。
サイズ、特徴次元、クラス不均衡、信号対雑音比といったデータセット特性を取り入れたデータセット適応型正規化メトリックを示す。
論文 参考訳(メタデータ) (2024-12-10T07:10:00Z) - Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。