論文の概要: Agentic Adversarial QA for Improving Domain-Specific LLMs
- arxiv url: http://arxiv.org/abs/2602.18137v1
- Date: Fri, 20 Feb 2026 10:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.296825
- Title: Agentic Adversarial QA for Improving Domain-Specific LLMs
- Title(参考訳): ドメイン特化LDM改善のためのエージェント逆数QA
- Authors: Vincent Grari, Ciprian Tomoiaga, Sylvain Lamprier, Tatsunori Hashimoto, Marcin Detyniecki,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば専門分野に効果的に対応するのに苦労する。
本稿では,意味論的課題の集合をコンパクトに生成する逆問題生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 53.00642389531106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), despite extensive pretraining on broad internet corpora, often struggle to adapt effectively to specialized domains. There is growing interest in fine-tuning these models for such domains; however, progress is constrained by the scarcity and limited coverage of high-quality, task-relevant data. To address this, synthetic data generation methods such as paraphrasing or knowledge extraction are commonly applied. Although these approaches excel at factual recall and conceptual knowledge, they suffer from two critical shortcomings: (i) they provide minimal support for interpretive reasoning capabilities in these specialized domains, and (ii) they often produce synthetic corpora that are excessively large and redundant, resulting in poor sample efficiency. To overcome these gaps, we propose an adversarial question-generation framework that produces a compact set of semantically challenging questions. These questions are constructed by comparing the outputs of the model to be adapted and a robust expert model grounded in reference documents, using an iterative, feedback-driven process designed to reveal and address comprehension gaps. Evaluation on specialized subsets of the LegalBench corpus demonstrates that our method achieves greater accuracy with substantially fewer synthetic samples.
- Abstract(参考訳): 大規模な言語モデル (LLMs) は、広範なインターネットコーパスの事前訓練にもかかわらず、しばしば専門ドメインに効果的に対応するのに苦労する。
このような領域に対して、これらのモデルを微調整することへの関心は高まっているが、その進歩は、高品質なタスク関連データの不足と限られたカバレッジによって制約されている。
これを解決するために、パラフレーズや知識抽出などの合成データ生成手法が一般的である。
これらのアプローチは、事実的リコールと概念的知識において優れているが、2つの重大な欠点に悩まされている。
(i)これらの専門分野における解釈的推論能力の最小限の支援を提供し、
(二)過大で冗長な合成コーパスをしばしば生成し、結果としてサンプル効率が低下する。
これらのギャップを克服するために, 意味論的に困難な質問の集合をコンパクトに生成する逆問題生成フレームワークを提案する。
これらの質問は、適応すべきモデルの出力と、参照文書に基礎を置く堅牢な専門家モデルを比較し、理解のギャップを明らかにして対処するために設計された反復的フィードバック駆動のプロセスを用いて構成される。
LegalBench corpus の特殊部分集合の評価により, より少ない合成試料の精度が得られた。
関連論文リスト
- Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis [10.951981109673119]
Agentic Proposingは、問題合成をゴール駆動シーケンシャルな意思決定プロセスとしてモデル化するフレームワークである。
数学、コーディング、科学にまたがる高精度で検証可能な訓練軌道を生成する。
11,000個の合成軌道で訓練された30Bソルバは、AIME25で91.6%の精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T09:02:53Z) - PL-CA: A Parametric Legal Case Augmentation Framework [10.998168534326709]
従来のRAGは、取得した文書を直接モデルのコンテキストに注入するのみである。
多くの既存のベンチマークには専門家のアノテーションがなく、個別の下流タスクのみに焦点を当てている。
本稿では,PL-CAを提案する。PL-CAは,コーパス知識に基づくデータ拡張を行うためのパラメトリックRAGフレームワークである。
論文 参考訳(メタデータ) (2025-09-08T06:08:06Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Expert Routing with Synthetic Data for Continual Learning [46.01125098473039]
Generate to Discriminate (G2D) は、合成データを利用してドメイン識別器を訓練する連続学習手法である。
我々は、G2Dが視覚と言語の両方におけるタスクにおいて、競争力のあるドメイン・インクリメンタル・ラーニング手法より優れていることを観察する。
論文 参考訳(メタデータ) (2024-12-22T13:16:28Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。