Fugu-MT 論文翻訳(概要): Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence under Controlled Prompt Structure

論文の概要: Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence under Controlled Prompt Structure

arxiv url: http://arxiv.org/abs/2603.19426v1
Date: Thu, 19 Mar 2026 19:39:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:38.853792
Title: Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence under Controlled Prompt Structure
Title（参考訳）: 評価アウェアネスは感性に合っているか? : 制御されたプロンプト構造下でのプローブに基づく証拠の限界
Authors: Viliana Devbunova,
Abstract要約: プローブは主にベンチマーク・カノニカルな構造を追跡し、自由形式のプロンプトへの一般化に失敗する。標準プローブベースの手法は、構造的アーティファクトから評価コンテキストを確実に切り離すものではない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prior work uses linear probes on benchmark prompts as evidence of evaluation awareness in large language models. Because evaluation context is typically entangled with benchmark format and genre, it is unclear whether probe-based signals reflect context or surface structure. We test whether these signals persist under partial control of prompt format using a controlled 2x2 dataset and diagnostic rewrites. We find that probes primarily track benchmark-canonical structure and fail to generalize to free-form prompts independent of linguistic style. Thus, standard probe-based methodologies do not reliably disentangle evaluation context from structural artifacts, limiting the evidential strength of existing results.
Abstract（参考訳）: 以前の研究では、大規模言語モデルにおける評価意識の証拠として、ベンチマークプロンプトに線形プローブが用いられていた。評価コンテキストは一般にベンチマークフォーマットやジャンルに絡み合っているため、プローブベースの信号がコンテキストや表面構造を反映するかどうかは不明である。制御された2x2データセットと診断書き直しを用いて、これらの信号がプロンプトフォーマットの部分的な制御下で持続するかどうかを検証する。プローブは主にベンチマーク・カノニカルな構造を追跡し、言語スタイルとは無関係に自由形式のプロンプトに一般化できないことがわかった。このように、標準プローブベースの手法は、構造的成果物から評価コンテキストを確実に切り離すことがなく、既存の結果の明らかな強度を制限している。

関連論文リスト

Who Guards the Guardians? The Challenges of Evaluating Identifiability of Learned Representations [25.62598569130843]
データ生成プロセス(DGP)とエンコーダの両方に関する仮定を暗黙的に符号化していることを示す。これらの仮定に違反すると、メトリクスは誤って特定され、体系的な偽陽性と偽陰性を生成する。本稿では,DGP仮定をエンコーダ幾何から分離した分類法を導入し,既存のメトリクスの妥当性ドメインを特徴付けるとともに,再現性のあるストレステストと比較のための評価スイートをリリースする。
論文参考訳（メタデータ） (2026-02-27T18:50:13Z)
Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation [0.0]
部分観測可能性下での統計的識別可能性のレンズによるアライメント評価について検討した。我々は、アライメント検証可能性問題を定式化し、ノーマティブ識別可能性を導入する。以上の結果から,行動ベンチマークは,評価意識下での遅延アライメントに必要だが不十分な証拠を提供することが示された。
論文参考訳（メタデータ） (2026-02-05T13:40:56Z)
Probing Syntax in Large Language Models: Successes and Remaining Challenges [7.9494253785082405]
構造的要因や統計的要因がこれらの構文的表現に体系的に影響を及ぼすかどうかは不明である。 3つの制御されたベンチマーク上で構造プローブの詳細な解析を行う。
論文参考訳（メタデータ） (2025-08-05T08:41:14Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
Mitigating Bias in Text Classification via Prompt-Based Text Transformation [0.2864713389096699]
テキストの書き直しをChatGPTに促すことが、意味を保ちながら人口統計信号を減少させるかどうかを検討する。その結果, テキスト分類におけるバイアス軽減のための実践的, 一般化可能な手法として, プロンプトベースの書き直しが提案されている。
論文参考訳（メタデータ） (2023-05-09T13:10:23Z)
On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文参考訳（メタデータ） (2022-12-20T06:24:25Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。