論文の概要: Models Know Models Best: Evaluation via Model-Preferred Formats
- arxiv url: http://arxiv.org/abs/2601.22699v1
- Date: Fri, 30 Jan 2026 08:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.317888
- Title: Models Know Models Best: Evaluation via Model-Preferred Formats
- Title(参考訳): モデルが最良のことを知っているモデル:モデル優先フォーマットによる評価
- Authors: Joonhak Lee, Sungmok Jung, Jongyeon Park, Jaejin Lee,
- Abstract要約: 複数選択タスクにおける大規模言語モデルの性能は,シンボルベースとクローゼスタイルの評価形式で著しく異なる。
潜在モデル参照信号に基づいて訓練された軽量な分類器を利用する動的フォーマットアライメント戦略が導入された。
提案手法は, 推論および知識ベンチマークにおいて, ゼロショット精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 2.9923891863939946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance of Large Language Models (LLMs) on multiple-choice tasks differs markedly between symbol-based and cloze-style evaluation formats. The observed discrepancies are systematically attributable to task characteristics: natural language continuation benefits from likelihood scoring, whereas explicit comparison is better suited to symbol-based selection. These trends are consistent across various decoder-based LLMs, indicating model-agnostic effects. To address these inconsistencies, a dynamic format-alignment strategy is introduced that employs a lightweight classifier trained on latent model-preference signals. In contrast to human-designed heuristics, which often degrade performance, this approach uses model-generated signals to determine the optimal format for each problem instance. The proposed method achieves substantial and consistent improvements in zero-shot accuracy across reasoning and knowledge benchmarks, better revealing the models' latent capabilities.
- Abstract(参考訳): 複数選択タスクにおける大規模言語モデル(LLM)の性能は,シンボルベースとクローゼスタイルの評価形式で著しく異なる。
観察された不一致は、タスクの特徴に体系的に寄与する: 自然言語の継続は、確率のスコアリングから恩恵を受けるが、明示的な比較はシンボルベースの選択に適している。
これらの傾向は、モデルに依存しない影響を示す様々なデコーダベースのLCM間で一致している。
これらの矛盾に対処するために、潜在モデル参照信号に基づいて訓練された軽量な分類器を利用する動的フォーマットアライメント戦略が導入された。
性能を劣化させるような人間設計のヒューリスティックスとは対照的に、本手法ではモデル生成信号を用いて各問題インスタンスの最適なフォーマットを決定する。
提案手法は、推論と知識のベンチマークでゼロショット精度を大幅に改善し、モデルの潜在能力を明らかにする。
関連論文リスト
- When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。
多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。
LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文 参考訳(メタデータ) (2025-11-18T10:40:32Z) - Relative Overfitting and Accept-Reject Framework [5.465098504510676]
本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
論文 参考訳(メタデータ) (2025-05-12T17:36:14Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。