論文の概要: Simple LLM Baselines are Competitive for Model Diffing
- arxiv url: http://arxiv.org/abs/2602.10371v1
- Date: Tue, 10 Feb 2026 23:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.342664
- Title: Simple LLM Baselines are Competitive for Model Diffing
- Title(参考訳): LLMベースラインはモデルディッフィングと競合する
- Authors: Elias Kempf, Simon Schrodi, Bartosz Cywiński, Thomas Brox, Neel Nanda, Arthur Conmy,
- Abstract要約: 本稿では,キーデシダータの評価基準(一般化,面白さ,抽象化レベル)を提案し,既存の手法と比較する。
以上の結果から,LLMベースのベースラインの改良はSAEベースの手法と相容れないが,より抽象的な振る舞いの相違が指摘されるのが普通である。
- 参考スコア(独自算出の注目度): 29.932454534210844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard LLM evaluations only test capabilities or dispositions that evaluators designed them for, missing unexpected differences such as behavioral shifts between model revisions or emergent misaligned tendencies. Model diffing addresses this limitation by automatically surfacing systematic behavioral differences. Recent approaches include LLM-based methods that generate natural language descriptions and sparse autoencoder (SAE)-based methods that identify interpretable features. However, no systematic comparison of these approaches exists nor are there established evaluation criteria. We address this gap by proposing evaluation metrics for key desiderata (generalization, interestingness, and abstraction level) and use these to compare existing methods. Our results show that an improved LLM-based baseline performs comparably to the SAE-based method while typically surfacing more abstract behavioral differences.
- Abstract(参考訳): 標準的なLCM評価は、モデルリビジョン間の振る舞いシフトや創発的ミスアライメントの傾向といった予期せぬ違いを欠いた、評価者が設計したテスト能力や配置のみである。
モデル微分はこの制限に対処し、自動的に体系的な振る舞いの違いを克服する。
最近のアプローチには、自然言語記述を生成するLLMベースのメソッドや、解釈可能な特徴を識別するスパースオートエンコーダ(SAE)ベースのメソッドが含まれる。
しかし,これらの手法の体系的比較は存在せず,評価基準も確立されていない。
このギャップに対処するために、キーデシダータの評価基準(一般化、面白さ、抽象化レベル)を提案し、既存の手法と比較する。
以上の結果から,LLMベースのベースラインの改良はSAEベースの手法と相容れないが,より抽象的な振る舞いの相違が指摘されるのが普通である。
関連論文リスト
- Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models [24.90505576458548]
我々は,大規模言語モデル(LLM)に基づく,軽量なコンテクストとゼロショットアプローチを含む,最先端のリグレード手法の評価を行った。
我々の第一の目的は、LLMベースのリランカと軽量なリランカの間に性能格差が存在するかどうか、制御と公正な比較によって決定することである。
論文 参考訳(メタデータ) (2025-08-22T19:30:04Z) - Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach [20.27214998822657]
Code Large Language Models (CLLM) は、プログラム合成において優れた性能を示した。
既存のベンチマークは通常、各問題の評価のために1つの入力プロンプトのみを提供する。
10の突然変異戦略を提案し、コード生成への影響を評価するために3つの新しい指標を導入する。
論文 参考訳(メタデータ) (2025-05-11T07:14:30Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat [7.8905223445925055]
大規模言語モデル(LLM)に対する人間の嗜好を評価する新しい方法として、ペアワイズランキングが登場した。
LLMの前後比較におけるランキングシステムの有効性について検討する。
我々の分析は、ランキングの精度と効率に影響を与える要因について重要な洞察を見出している。
論文 参考訳(メタデータ) (2024-11-19T20:16:26Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。