論文の概要: From Feelings to Metrics: Understanding and Formalizing How Users Vibe-Test LLMs
- arxiv url: http://arxiv.org/abs/2604.14137v2
- Date: Thu, 16 Apr 2026 12:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.210691
- Title: From Feelings to Metrics: Understanding and Formalizing How Users Vibe-Test LLMs
- Title(参考訳): フィーリングからメトリクスへ - ユーザがLLMをテストする方法の理解と形式化
- Authors: Itay Itzhak, Eliya Habba, Gabriel Stanovsky, Yonatan Belinkov,
- Abstract要約: バイブテストが実際にどのように機能するかを研究し、その後、体系的な分析を支援するために形式化する。
コーディングベンチマークの実験では、パーソナライズされたプロンプトとユーザ認識評価を組み合わせることで、どのモデルが好まれるかを変更できることがわかった。
- 参考スコア(独自算出の注目度): 48.36707944399574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating LLMs is challenging, as benchmark scores often fail to capture models' real-world usefulness. Instead, users often rely on ``vibe-testing'': informal experience-based evaluation, such as comparing models on coding tasks related to their own workflow. While prevalent, vibe-testing is often too ad hoc and unstructured to analyze or reproduce at scale. In this work, we study how vibe-testing works in practice and then formalize it to support systematic analysis. We first analyze two empirical resources: (1) a survey of user evaluation practices, and (2) a collection of in-the-wild model comparison reports from blogs and social media. Based on these resources, we formalize vibe-testing as a two-part process: users personalize both what they test and how they judge responses. We then introduce a proof-of-concept evaluation pipeline that follows this formulation by generating personalized prompts and comparing model outputs using user-aware subjective criteria. In experiments on coding benchmarks, we find that combining personalized prompts and user-aware evaluation can change which model is preferred, reflecting the role of vibe-testing in practice. These findings suggest that formalized vibe-testing can serve as a useful approach for bridging benchmark scores and real-world experience.
- Abstract(参考訳): LLMの評価は、ベンチマークスコアが実際のモデルの有用性を捉えるのに失敗することが多いため、難しい。
その代わり、ユーザは‘vibe-testing’ – 自身のワークフローに関連するコーディングタスクのモデルの比較など、非公式なエクスペリエンスベースの評価に頼っていることが多い。
ビブテストは一般的だが、しばしばアドホックで非構造的であり、大規模な解析や再現には適さない。
本研究では,ビブテストが実際にどのように機能するかを検証し,体系的な分析を支援するために形式化する。
本研究ではまず,(1)ユーザ評価の実践に関する調査,(2)ブログやソーシャルメディアから得られた内的モデル比較レポートの収集,という2つの経験的資源を分析した。
これらのリソースに基づいて、私たちはバイブテストを2段階のプロセスとして形式化し、ユーザーがテスト内容と反応の判断方法の両方をパーソナライズする。
次に、パーソナライズされたプロンプトを生成し、ユーザ認識の主観的基準を用いてモデル出力を比較することによって、この定式化に従う概念実証評価パイプラインを導入する。
コーディングベンチマークの実験では、パーソナライズされたプロンプトとユーザ認識評価を組み合わせることで、どのモデルが好まれるかが変化し、実際にビブテストの役割が反映されることがわかった。
これらの結果から, 形式化されたバイブテストは, ベンチマークスコアと実世界の経験をブリッジするのに有用な手法であることが示唆された。
関連論文リスト
- Becoming Experienced Judges: Selective Test-Time Learning for Evaluators [35.95187315060261]
トレーニングや検証セットを必要とせずに,評価者が推論時に逐次改善できるフレームワークであるLWE(Learning While Evaluation)を導入する。
LWEは、(i)サンプル固有の評価命令を生成し、(ii)自己生成フィードバックを通じて自分自身を洗練させるメタプロンプトの進化を維持している。
本稿では,自己一貫性のあるケースのみにメタプロンプトを更新するSelective LWEを提案する。
論文 参考訳(メタデータ) (2025-12-07T09:28:39Z) - QoNext: Towards Next-generation QoE for Foundation Models [63.76972456980632]
ファウンデーションモデルの既存の評価は、本当に重要なこと、つまりインタラクション中のユーザの経験を捉えるのに失敗します。
基礎モデルの評価にQuality of Experienceの原則を適用する最初のフレームワークであるQoNextを紹介します。
我々はQoE指向のデータベースを構築し、測定可能なシステムパラメータから知覚されたユーザエクスペリエンスを推定する予測モデルを訓練する。
論文 参考訳(メタデータ) (2025-09-26T05:26:52Z) - Addressing Personalized Bias for Unbiased Learning to Rank [56.663619153713434]
Unbiased Learning to rank (ULTR)は、バイアスのあるユーザの行動ログからバイアスのないランキングモデルを学ぶことを目的としている。
そこで本研究では,学習からランクへの目標値を求めるために,新しいユーザ認識逆確率スコア推定器を提案する。
論文 参考訳(メタデータ) (2025-08-28T14:01:31Z) - A Third Paradigm for LLM Evaluation: Dialogue Game-Based Evaluation using clembench [18.149327897427234]
2023年から継続的開発が続けられているClembenchについて紹介する。
我々は、それが自身のモデル(英語で提供されるベンチマークゲームインスタンスのセットを使用して)のベンチマークにどのように使用できるかを説明する。
論文 参考訳(メタデータ) (2025-07-11T11:16:01Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Exploiting Rich Textual User-Product Context for Improving Sentiment
Analysis [21.840121866597563]
本稿では,同じユーザ/製品に属する履歴レビューを明示的に活用して表現を初期化する手法を提案する。
IMDb、Yelp-2013、Yelp-2014ベンチマークの実験は、我々のアプローチがこれまでの最先端よりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2022-12-17T14:57:52Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。