論文の概要: Evolutionary Search for Automated Design of Uncertainty Quantification Methods
- arxiv url: http://arxiv.org/abs/2604.03473v1
- Date: Fri, 03 Apr 2026 21:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.597337
- Title: Evolutionary Search for Automated Design of Uncertainty Quantification Methods
- Title(参考訳): 不確実性定量化手法の自動設計のための進化的探索
- Authors: Mikhail Seleznyov, Daniil Korbut, Viktor Moskvoretskii, Oleg Somov, Alexander Panchenko, Elena Tutubalina,
- Abstract要約: 大規模言語モデルの不確実性定量化(UQ)手法は、主にドメインの知識と複雑さに基づいて手作業で設計される。
LLMによる進化的探索を応用して,Pythonプログラムに代表される教師なしUQを自動的に検出する。
以上の結果から,LLMを用いた進化探索は,自動で解釈可能な幻覚検出器の設計において有望なパラダイムであることが示唆された。
- 参考スコア(独自算出の注目度): 59.4676699732568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty quantification (UQ) methods for large language models are predominantly designed by hand based on domain knowledge and heuristics, limiting their scalability and generality. We apply LLM-powered evolutionary search to automatically discover unsupervised UQ methods represented as Python programs. On the task of atomic claim verification, our evolved methods outperform strong manually-designed baselines, achieving up to 6.7% relative ROC-AUC improvement across 9 datasets while generalizing robustly out-of-distribution. Qualitative analysis reveals that different LLMs employ qualitatively distinct evolutionary strategies: Claude models consistently design high-feature-count linear estimators, while Gpt-oss-120B gravitates toward simpler and more interpretable positional weighting schemes. Surprisingly, only Sonnet 4.5 and Opus 4.5 reliably leverage increased method complexity to improve performance -- Opus 4.6 shows an unexpected regression relative to its predecessor. Overall, our results indicate that LLM-powered evolutionary search is a promising paradigm for automated, interpretable hallucination detector design.
- Abstract(参考訳): 大規模言語モデルの不確実性定量化(UQ)手法は、主にドメイン知識とヒューリスティックに基づいて手作業で設計され、スケーラビリティと汎用性を制限する。
LLMによる進化的探索を応用して,Pythonプログラムに代表される教師なしUQを自動的に検出する。
原子クレーム検証のタスクにおいて、我々の進化した手法は、強力な手動設計ベースラインを上回り、9つのデータセットで最大6.7%のROC-AUCの改善を達成し、頑健なアウト・オブ・ディストリビューションを一般化した。
クロードモデルは常に高次数線形推定器を設計し、Gpt-oss-120Bはよりシンプルで解釈可能な位置重み付けスキームを指向している。
驚いたことに、Sonnet 4.5とOpus 4.5だけがパフォーマンスを改善するためにメソッドの複雑さの増大を確実に活用している。
以上の結果から,LLMを用いた進化探索は,自動で解釈可能な幻覚検出器の設計において有望なパラダイムであることが示唆された。
関連論文リスト
- AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection [14.17960333915609]
進化的エージェントシステムは、計算効率と推論能力の間のトレードオフを強化する。
本稿では,AdaptEvolve: Adaptive Selection for Multi-LLM Evolutionary Refinementを紹介する。
論文 参考訳(メタデータ) (2026-02-12T13:26:56Z) - LLMs can Compress LLMs: Adaptive Pruning by Agents [0.0]
ポストトレーニングプルーニングは、性能を保ちながら計算コストを削減するための有望なアプローチとして現れている。
我々はエージェント誘導プルーニングを導入し、ファンデーションモデルが適応プルーニングエージェントとして機能する。
我々はQ3モデル(4Bおよび8Bパラメータ)の約45%の間隔で評価を行い、構造化プルーニングベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2026-01-14T18:45:36Z) - From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。
本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文 参考訳(メタデータ) (2026-01-07T11:13:02Z) - LLM-AR: LLM-powered Automated Reasoning Framework [0.0]
大規模言語モデル(LLM)はすでにパターンを識別し、推論を効果的に行うことができるが、その変動精度は高い意思決定アプリケーションで採用されている。
本稿では,LLM生成物をProbLog自動推論エンジンによって実行される確率的ルールに分解する,ニューラルシンボリックシステムにインスパイアされたパイプラインLLM-ARを紹介する。
LLM-ARは59.5%の精度と8.7%のリコールを達成し、5.9倍のランダムなベースライン精度を達成し、人間の検査のためのすべての決定経路を公開する。
論文 参考訳(メタデータ) (2025-10-24T21:36:18Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design [11.639825726501659]
大規模言語モデル(LLM)は、従来のコストのごく一部で自律的にハイパフォーマンスを発見できる。
本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。
本手法は,様々な最適化タスクにおいて,SOTA(State-of-the-art)ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-18T07:48:47Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。