論文の概要: VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI
- arxiv url: http://arxiv.org/abs/2508.00965v1
- Date: Fri, 01 Aug 2025 14:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.649976
- Title: VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI
- Title(参考訳): VAULT: LLM-Driven Retrieval-Augmented Generation for NLI
- Authors: Roie Kazoom, Ofir Cohen, Rami Puzis, Asaf Shabtai, Ofer Hadar,
- Abstract要約: VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。
VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 15.320553375828045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VAULT, a fully automated adversarial RAG pipeline that systematically uncovers and remedies weaknesses in NLI models through three stages: retrieval, adversarial generation, and iterative retraining. First, we perform balanced few-shot retrieval by embedding premises with both semantic (BGE) and lexical (BM25) similarity. Next, we assemble these contexts into LLM prompts to generate adversarial hypotheses, which are then validated by an LLM ensemble for label fidelity. Finally, the validated adversarial examples are injected back into the training set at increasing mixing ratios, progressively fortifying a zero-shot RoBERTa-base model.On standard benchmarks, VAULT elevates RoBERTa-base accuracy from 88.48% to 92.60% on SNLI +4.12%, from 75.04% to 80.95% on ANLI +5.91%, and from 54.67% to 71.99% on MultiNLI +17.32%. It also consistently outperforms prior in-context adversarial methods by up to 2.0% across datasets. By automating high-quality adversarial data curation at scale, VAULT enables rapid, human-independent robustness improvements in NLI inference tasks.
- Abstract(参考訳): VAULTは,NLIモデルの弱点を系統的に発見し,修復する,完全自動化された対外RAGパイプラインであり,検索,対外生成,反復的再学習の3段階を通じて導入する。
まず、セマンティック(BGE)とレキシカル(BM25)の両方の類似性を持つ前提を埋め込むことにより、バランスの取れた少数ショット検索を行う。
次に、これらのコンテキストをLCMプロンプトに組み立て、逆説を生成し、ラベルの忠実さをLLMアンサンブルで検証する。
標準ベンチマークでは、VAULTはRoBERTaベース精度を88.48%から92.60%に、SNLI +4.12%に75.04%から80.95%に、ANLI +5.91%に54.67%から71.99%に引き上げている。
また、データセット間で、コンテクスト内敵メソッドを最大2.0%向上させる。
高品質な逆データキュレーションを大規模に自動化することにより、VAULTは、NLI推論タスクにおいて、迅速で人間に依存しない堅牢性の改善を可能にする。
関連論文リスト
- Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - Learning Hierarchical Procedural Memory for LLM Agents through Bayesian Selection and Contrastive Refinement [23.31711942240935]
本稿では,外部階層型手続き型メモリにおいて,すべての適応を実行しながら,凍結した大言語モデルを維持することにより,推論を学習から切り離すフレームワークMACLAを提案する。
MACLAは、トラジェクトリーから再利用可能な手順を抽出し、ベイジアン後部を通して信頼性を追跡し、期待される実用性スコアリングを通じてアクションを選択し、成功と失敗を対比して手順を洗練する。
4つのベンチマーク(ALFWorld、WebShop、TravelPlanner、InterCode)でMACLAの平均パフォーマンスは78.1%で、すべてのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-22T01:56:28Z) - Mitigating Spurious Correlations in NLI via LLM-Synthesized Counterfactuals and Dynamic Balanced Sampling [0.0]
自然言語推論(NLI)モデルは、意味論的推論よりも、素早い相関にしばしば依存する。
既存の緩和戦略は、しばしば高いアノテーションコストを発生させるか、微調整中に破滅的な忘れを引き起こす。
これらの制限に対処する自動化されたスケーラブルなパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-20T18:30:54Z) - Revisiting the Reliability of Language Models in Instruction-Following [15.281163913211818]
LLMはIFEvalなどのベンチマークでほぼシーリングの命令追従精度を達成した。
モデルが類似のユーザ意図を伝達する従兄弟のプロンプトに対して、微妙なニュアンスで一貫した能力を示すかどうか、ニュアンス指向の信頼性について検討する。
以上の結果から, ニュアンス指向の信頼性は, 信頼性が高く信頼性の高いLCM行動に向けた重要かつ過小評価された次のステップであることがわかった。
論文 参考訳(メタデータ) (2025-12-15T02:57:55Z) - Identifying Imaging Follow-Up in Radiology Reports: A Comparative Analysis of Traditional ML and LLM Approaches [8.864020712680976]
586例から6,393例の注釈付きコーパスを報告した。
我々は、ロジスティック回帰(LR)、サポートベクタマシン(SVM)、Longformer、そして完全に微調整されたLlama3-8B-インストラクトを含む従来の機械学習分類器を比較した。
GPT-4oとオープンソースのGPT-OSS-20Bを2つの構成で評価した。
論文 参考訳(メタデータ) (2025-11-14T20:55:44Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - Evaluating Hybrid Retrieval Augmented Generation using Dynamic Test Sets: LiveRAG Challenge [8.680958290253914]
本稿では,動的テストセット上での検索強化生成システム(RAG)の評価を行うLiveRAG Challenge 2025を提案する。
我々の最後のハイブリッドアプローチはスパース (BM25) と高密度 (E5) の検索手法を組み合わせたものである。
RankLLaMA を用いたニューラルリランクでは MAP は0.523 から 0.797 に向上するが,計算コストは禁忌である。
論文 参考訳(メタデータ) (2025-06-27T21:20:43Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Enhancing LLM Code Generation with Ensembles: A Similarity-Based Selection Approach [6.93983229112122]
コード生成における大規模言語モデル(LLM)のアンサンブル手法を提案する。
投票には,CodeBLEUと行動等価性を用いて構文的・意味的類似性を計算する。
実験により,我々のアンサンブルアプローチはスタンドアローンLLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-03-20T04:38:56Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。