論文の概要: NanoFlux: Adversarial Dual-LLM Evaluation and Distillation For Multi-Domain Reasoning
- arxiv url: http://arxiv.org/abs/2509.23252v2
- Date: Sat, 04 Oct 2025 01:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 12:09:05.114976
- Title: NanoFlux: Adversarial Dual-LLM Evaluation and Distillation For Multi-Domain Reasoning
- Title(参考訳): NanoFlux:マルチドメイン推論のための対向デュアルLLM評価と蒸留
- Authors: Raviteja Anantha, Soheil Hor, Teodor Nicola Antoniu, Layne C. Price,
- Abstract要約: NanoFluxは、LLM推論を改善するために、ターゲットとするトレーニングデータを生成するための、新しい逆のフレームワークである。
このフレームワークは、ツール強化された審査員が監督する、アタッカーとデフェンダーとを交互に使用するモデル間の競合ダイナミクスを採用している。
NanoFluxの生成したデータに対する4B-パラメータの微調整は、フルベンチマークの微調整と比較して、様々な領域におけるパフォーマンス向上をもたらす。
- 参考スコア(独自算出の注目度): 5.461464418720756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present NanoFlux, a novel adversarial framework for generating targeted training data to improve LLM reasoning, where adversarially-generated datasets containing fewer than 200 examples outperform conventional fine-tuning approaches. The framework employs a competitive dynamic between models alternating as Attacker and Defender, supervised by a tool-augmented Judge, synthesizing multi-step questions with explanatory annotations that target specific reasoning capabilities. Fine-tuning a 4B-parameter model on NanoFlux-generated data yields performance gains across diverse domains compared to full-benchmark fine-tuning: +5.9% on mathematical reasoning (GSMHard), +3.6% on scientific reasoning (GenomeBench), and +16.6% on medical reasoning (MultiMedQA), while reducing computational requirements by 3-14x. Ablation studies reveal a non-monotonic relationship between dataset characteristics and model performance, uncovering domain-specific optimal points for question complexity and reasoning quality. NanoFlux automates training data generation through embedding-based novelty filtering, tool-augmented evaluation, and multi-hop reasoning, suggesting that future model improvements may lie in the intelligent synthesis of small, precisely targeted training datasets.
- Abstract(参考訳): 我々は,LLM推論を改善するための新たな学習データ生成フレームワークであるNanoFluxを提案する。
このフレームワークは、アタッカーとデフェンダーとを交互に交互に交互に使用するもので、ツール強化された審査員が監督し、特定の推論機能をターゲットにした説明アノテーションで多段階の質問を合成する。
ナノフラックス生成データ上での4Bパラメータの微調整では、フルベンチマークの微調整に比べてパフォーマンスが向上し、数学的推論(GSMHard)では+5.9%、科学的推論(GenomeBench)では+3.6%、医学的推論(MultiMedQA)では+16.6%となり、計算要求は3.14倍削減された。
アブレーション研究は、データセット特性とモデル性能の非単調な関係を明らかにし、問題複雑性と推論品質のドメイン固有の最適点を明らかにする。
NanoFluxは、埋め込みベースのノベルティフィルタリング、ツール拡張評価、マルチホップ推論を通じて、トレーニングデータ生成を自動化する。
関連論文リスト
- A Comprehensive Taxonomy of Negation for NLP and Neural Retrievers [57.57320129313161]
我々は、哲学的、言語的、論理的定義から派生した否定の分類を導入した。
ニューラルネットワーク検索モデルの性能評価に使用できるベンチマークデータセットを2つ生成する。
本稿では,既存のデータセットの検索モデルの性能を解析するために,論理に基づく分類機構を提案する。
論文 参考訳(メタデータ) (2025-07-30T02:44:20Z) - Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文 参考訳(メタデータ) (2025-06-02T09:46:08Z) - On Machine Learning Approaches for Protein-Ligand Binding Affinity Prediction [2.874893537471256]
本研究では,タンパク質-リガンド結合親和性予測における古典的木モデルと高度なニューラルネットワークの性能を評価する。
2次元モデルと3次元モデルを組み合わせることで、現在の最先端のアプローチを超えて、アクティブな学習結果が向上することを示す。
論文 参考訳(メタデータ) (2024-07-15T13:06:00Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - When predict can also explain: few-shot prediction to select better neural latents [2.8933605229876664]
広く使われている1つのメソッドである$textitco-smoothing$は、潜在変数を共同で推定し、保持されたチャネルに沿って観測を予測する。
高い共平度を持つモデルは、その潜在表現において任意の外部ダイナミクスを持つことができることを示す。
すべてのモデルペアの潜伏変数を高共平滑化でクロスデコードすることにより、最小限の外部ダイナミクスを持つモデルを同定する。
論文 参考訳(メタデータ) (2024-05-23T10:48:30Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Quaternion Factorization Machines: A Lightweight Solution to Intricate
Feature Interaction Modelling [76.89779231460193]
factorization machine(fm)は、機能間の高次インタラクションを自動的に学習し、手動の機能エンジニアリングを必要とせずに予測を行うことができる。
本研究では,スパース予測解析のためのQFM(Quaternion factorization Machine)とQNFM(Quaternion neural factorization Machine)を提案する。
論文 参考訳(メタデータ) (2021-04-05T00:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。