論文の概要: VeRA: Verified Reasoning Data Augmentation at Scale
- arxiv url: http://arxiv.org/abs/2602.13217v1
- Date: Fri, 23 Jan 2026 05:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.552983
- Title: VeRA: Verified Reasoning Data Augmentation at Scale
- Title(参考訳): VeRA: 大規模で検証された推論データ拡張
- Authors: Zerui Cheng, Jiashuo Liu, Chunjie Wu, Jianzhu Yao, Pramod Viswanath, Ge Zhang, Wenhao Huang,
- Abstract要約: VeRAはベンチマーク問題を実行可能な仕様に変換するフレームワークである。
単一のシード問題から、VeRAは信頼性のあるラベルを持つ無制限の検証された変種を自動生成する。
VeRAは2つの補完モードで動作する。VeRA-Eは、基礎となるロジックをそのままにして問題を書き換える。
VeRA-Hは、信頼性を維持しながら、体系的に複雑性を増大させる。
- 参考スコア(独自算出の注目度): 22.157250697460224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The main issue with most evaluation schemes today is their "static" nature: the same problems are reused repeatedly, allowing for memorization, format exploitation, and eventual saturation. To measure genuine AI progress, we need evaluation that is robust by construction, not by post-hoc detection. In response, we propose VeRA (Verified Reasoning Data Augmentation), a framework that converts benchmark problems into executable specifications, comprising (i) a natural language template with placeholder slots, (ii) a coherent generator that samples valid configurations, and (iii) a deterministic verifier that validates parameters and calculates the corresponding correct answers for each configuration. From a single seed problem, VeRA automatically creates unlimited verified variants with reliable labels at near-zero marginal cost without human involvement. VeRA operates in two complementary modes. VeRA-E (equivalent) rewrites problems while keeping the underlying logic intact, useful for detecting memorization versus genuine reasoning. VeRA-H (hardened) systematically increases complexity while remaining verifiable, enabling reliable creation and labelling of fresh difficult tasks at the boundary of intelligence. Evaluating 16 frontier models with VeRA, we find: (i) VeRA-E improves evaluation quality and reveals contamination patterns. (ii) VeRA-H enables human-free generation of hard tasks with reliable labels. (iii) VeRA establishes verified benchmarks as a general paradigm. VeRA reconceptualizes benchmarks from static objects used until exhausted, to executable specifications generating fresh, verified instances on demand, enhancing robustness and cost-effectiveness for evaluation. With VeRA, we envision that evaluation in any verifiable domain can scale indefinitely without sacrificing label integrity. To stimulate future research, we have open-sourced all code and datasets.
- Abstract(参考訳): 今日のほとんどの評価スキームの主な問題は、その「静的」な性質であり、同じ問題が繰り返し再利用され、暗記、フォーマットの活用、最終的な飽和が可能である。
真のAIの進歩を測定するためには、ポストホック検出ではなく、構築によって堅牢な評価が必要である。
これに対し、ベンチマーク問題を実行可能な仕様に変換するフレームワークであるVeRA(Verified Reasoning Data Augmentation)を提案する。
(i)プレースホルダースロット付き自然言語テンプレート
(ii)有効な構成をサンプリングするコヒーレントジェネレータ、及び
三 パラメータを検証し、各構成について対応する正解を算出する決定論的検証器。
単一のシード問題から、VeRAは、人間が関与することなく、信頼性のあるラベルをほぼゼロの限界コストで、無制限に検証された変種を自動生成する。
VeRAは2つの補完モードで動作する。
VeRA-E (equivalent) は、基礎となるロジックをそのまま保ちながら問題を書き換える。
VeRA-H (hardened) は、信頼性を維持しながら複雑性を体系的に増加させ、インテリジェンスの境界における新しい困難なタスクの信頼性の高い作成とラベル付けを可能にする。
VeRAで16のフロンティアモデルを評価する。
(i)VeRA-Eは評価品質を改善し、汚染パターンを明らかにする。
(II)VeRA-Hは、信頼性のあるラベル付きハードタスクを人為的に生成することを可能にする。
(iii)VeRAは、検証されたベンチマークを一般的なパラダイムとして確立する。
VeRAは、使用済みの静的オブジェクトから、必要に応じて新しく検証されたインスタンスを生成する実行可能な仕様、堅牢性とコスト効率の向上まで、ベンチマークを再認識する。
VeRAでは,任意の検証可能な領域における評価が,ラベルの完全性を犠牲にすることなく無限にスケールできることを想定する。
将来の研究を促進するために、私たちはすべてのコードとデータセットをオープンソース化しました。
関連論文リスト
- DWBench: Holistic Evaluation of Watermark for Dataset Copyright Auditing [43.881484429055654]
データセット透かし技術は、監査と使用の検証を約束する。
我々はDWBenchを開発した。DWBenchは、画像データセットのウォーターマーク手法を体系的に評価するための統一ベンチマークおよびオープンソースツールキットである。
そこで本研究では,詳細な透かし識別のためのサンプルの意義と,データセットレベルの監査における検証成功率の2つの新しい指標について述べる。
論文 参考訳(メタデータ) (2026-02-14T01:09:19Z) - Labels Matter More Than Models: Quantifying the Benefit of Supervised Time Series Anomaly Detection [56.302586730134806]
時系列異常検出(TSAD)は、しばしばラベル不足によって制約される重要なデータマイニングタスクである。
現在の研究は、主に教師なし時系列異常検出に焦点を当てている。
本稿では,アーキテクチャの複雑さがTSADの最適経路である,という前提に挑戦する。
論文 参考訳(メタデータ) (2025-11-20T08:32:49Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models [10.230967860299504]
本稿では,ゼロショット指向の検査フレームワークを提案し,視覚言語モデルとRetrieval-Augmented Generationを統合した。
技術ドキュメント、代表参照画像、ドメイン固有のガイドラインを含むマルチモーダル知識ベースを構築する。
各種損傷カテゴリをカバーする30のラベル付きブレード画像上での枠組みの評価を行った。
論文 参考訳(メタデータ) (2025-10-26T23:19:28Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - MES-RAG: Bringing Multi-modal, Entity-Storage, and Secure Enhancements to RAG [65.0423152595537]
本稿では,エンティティ固有のクエリ処理を強化し,正確でセキュアで一貫した応答を提供するMES-RAGを提案する。
MES-RAGは、データアクセスの前に保護を適用してシステムの整合性を確保するための積極的なセキュリティ対策を導入している。
実験の結果,MES-RAGは精度とリコールの両方を著しく改善し,質問応答の安全性と有用性を向上する効果が示された。
論文 参考訳(メタデータ) (2025-03-17T08:09:42Z) - Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals [5.605770511387228]
RAGuardは、不正検索に対するRAGシステムの堅牢性を評価する最初のベンチマークである。
合成ノイズに依存する以前のベンチマークとは異なり、ファクトチェックデータセットは自然に発生する誤報をキャプチャする。
論文 参考訳(メタデータ) (2025-02-22T05:50:15Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。