論文の概要: The Partial Testimony of Logs: Evaluation of Language Model Generation under Confounded Model Choice
- arxiv url: http://arxiv.org/abs/2605.01311v1
- Date: Sat, 02 May 2026 07:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.699337
- Title: The Partial Testimony of Logs: Evaluation of Language Model Generation under Confounded Model Choice
- Title(参考訳): ログの部分的証言:構築されたモデル選択の下での言語モデル生成の評価
- Authors: Jikai Jin, Vasilis Syrgkanis,
- Abstract要約: 本研究では,大規模に構築された大規模観測ログと,未確立のスコアリングのための小さなランダム化実験と,オフラインシミュレータを組み合わせた3ソース設計について検討する。
本研究の主な成果は,ランダム化実験とシミュレータにより因果モデル値の復元が可能であることを示す同定定理である。
- 参考スコア(独自算出の注目度): 22.228743542695835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline evaluation of language models from usage logs is biased when model choice is confounded: the same user-side factors that influence which model is used can also influence how its output is judged, so raw comparisons of logged scores mix self-selected populations rather than estimating a common quantity of interest. A small randomized experiment can break this bias by overriding model choice, but in practice such experiments are scarce and costly. We study a three-source design that combines a large confounded observational log (OBS) for scale, a small randomized experiment (EXP) for unconfounded scoring, and an offline simulator (SIM) that replays candidate models on cached contexts. Our main result is an identification theorem showing that the randomized experiment and the simulator are together enough to recover causal model values; the observational log enters only afterward, to reduce estimation error rather than to make the causal comparison valid. Six estimator families are evaluated in a controlled semi-synthetic validation and in two real-task cached benchmarks for summarization and coding. No family dominates every regime; relative performance depends on the amount of unbiased EXP supervision and on how closely the target reward aligns with OBS-derived structure.
- Abstract(参考訳): モデル選択が確立されると、使用法ログからの言語モデルのオフライン評価がバイアスされる:どのモデルが使用されるかに影響を与える同じユーザー側要因も、その出力の判断方法に影響を与える可能性があるため、ログされたスコアの生比較は、共通の関心量を見積もるのではなく、自己選択された人口を混合する。
小さなランダム化実験は、モデル選択をオーバーライドすることで、このバイアスを破ることができるが、実際にはそのような実験は少なくて費用がかかる。
本研究では,大規模に構築された観測ログ(OBS)と,未確立のスコアリングのための小さなランダム化実験(EXP)と,キャッシュされたコンテキスト上で候補モデルを再生するオフラインシミュレータ(SIM)を組み合わせた3つのソース設計について検討する。
本研究の主な成果は,無作為化実験とシミュレータを併用して因果モデル値の復元が可能であることを示す同定定理である。
制御された半合成検証と、要約と符号化のための2つの実タスクキャッシュベンチマークにおいて、6つの推定器ファミリが評価される。
相対的なパフォーマンスは、偏りのないEXPの監督の量と、ターゲットの報酬がOBSに由来する構造とどの程度密接に一致しているかに依存する。
関連論文リスト
- Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - Truth or Twist? Optimal Model Selection for Reliable Label Flipping Evaluation in LLM-based Counterfactuals [17.368361664470925]
独立な非微調整関係を持つ判定モデルは,最も信頼性の高いラベルフリップ評価を提供することを示す。
その結果、最も効果的な判断モデルとユーザスタディから得られる結果とのギャップは、依然としてかなり大きいことが判明した。
論文 参考訳(メタデータ) (2025-05-20T06:12:17Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [71.04084063541777]
ランク付けのためのカウンターファクトラーニングはIRコミュニティで広く注目を集めている。
モデルは、ユーザの振る舞いの仮定が正しく、確率推定が正確であるときに理論的に非バイアス化される。
それらの有効性は通常シミュレーションベースの実験を通じて実証的に評価されるが、これは広く利用可能な大規模で実際のクリックログが不足しているためである。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。