Fugu-MT 論文翻訳(概要): VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI

論文の概要: VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI

arxiv url: http://arxiv.org/abs/2508.00965v1
Date: Fri, 01 Aug 2025 14:22:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:21.649976
Title: VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI
Title（参考訳）: VAULT: LLM-Driven Retrieval-Augmented Generation for NLI
Authors: Roie Kazoom, Ofir Cohen, Rami Puzis, Asaf Shabtai, Ofer Hadar,
Abstract要約: VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。 VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
参考スコア（独自算出の注目度）: 15.320553375828045
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce VAULT, a fully automated adversarial RAG pipeline that systematically uncovers and remedies weaknesses in NLI models through three stages: retrieval, adversarial generation, and iterative retraining. First, we perform balanced few-shot retrieval by embedding premises with both semantic (BGE) and lexical (BM25) similarity. Next, we assemble these contexts into LLM prompts to generate adversarial hypotheses, which are then validated by an LLM ensemble for label fidelity. Finally, the validated adversarial examples are injected back into the training set at increasing mixing ratios, progressively fortifying a zero-shot RoBERTa-base model.On standard benchmarks, VAULT elevates RoBERTa-base accuracy from 88.48% to 92.60% on SNLI +4.12%, from 75.04% to 80.95% on ANLI +5.91%, and from 54.67% to 71.99% on MultiNLI +17.32%. It also consistently outperforms prior in-context adversarial methods by up to 2.0% across datasets. By automating high-quality adversarial data curation at scale, VAULT enables rapid, human-independent robustness improvements in NLI inference tasks.
Abstract（参考訳）: VAULTは,NLIモデルの弱点を系統的に発見し,修復する,完全自動化された対外RAGパイプラインであり,検索,対外生成,反復的再学習の3段階を通じて導入する。まず、セマンティック(BGE)とレキシカル(BM25)の両方の類似性を持つ前提を埋め込むことにより、バランスの取れた少数ショット検索を行う。次に、これらのコンテキストをLCMプロンプトに組み立て、逆説を生成し、ラベルの忠実さをLLMアンサンブルで検証する。標準ベンチマークでは、VAULTはRoBERTaベース精度を88.48%から92.60%に、SNLI +4.12%に75.04%から80.95%に、ANLI +5.91%に54.67%から71.99%に引き上げている。また、データセット間で、コンテクスト内敵メソッドを最大2.0%向上させる。高品質な逆データキュレーションを大規模に自動化することにより、VAULTは、NLI推論タスクにおいて、迅速で人間に依存しない堅牢性の改善を可能にする。

関連論文リスト

Evaluating Hybrid Retrieval Augmented Generation using Dynamic Test Sets: LiveRAG Challenge [8.680958290253914]
本稿では,動的テストセット上での検索強化生成システム(RAG)の評価を行うLiveRAG Challenge 2025を提案する。我々の最後のハイブリッドアプローチはスパース (BM25) と高密度 (E5) の検索手法を組み合わせたものである。 RankLLaMA を用いたニューラルリランクでは MAP は0.523 から 0.797 に向上するが,計算コストは禁忌である。
論文参考訳（メタデータ） (2025-06-27T21:20:43Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Enhancing LLM Code Generation with Ensembles: A Similarity-Based Selection Approach [6.93983229112122]
コード生成における大規模言語モデル(LLM)のアンサンブル手法を提案する。投票には,CodeBLEUと行動等価性を用いて構文的・意味的類似性を計算する。実験により,我々のアンサンブルアプローチはスタンドアローンLLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-03-20T04:38:56Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文参考訳（メタデータ） (2024-01-11T09:49:15Z)
RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文参考訳（メタデータ） (2023-09-13T17:59:09Z)
Patch-Level Contrasting without Patch Correspondence for Accurate and Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-23T07:38:09Z)
Efficiently Teaching an Effective Dense Retriever with Balanced Topic Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文参考訳（メタデータ） (2021-04-14T16:49:18Z)
DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文参考訳（メタデータ） (2020-06-05T19:54:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。