論文の概要: BoRP: Bootstrapped Regression Probing for Scalable and Human-Aligned LLM Evaluation
- arxiv url: http://arxiv.org/abs/2601.18253v1
- Date: Mon, 26 Jan 2026 08:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.738438
- Title: BoRP: Bootstrapped Regression Probing for Scalable and Human-Aligned LLM Evaluation
- Title(参考訳): BoRP: スケーラブルでヒューマンアラインなLLM評価のためのブートストラップ型回帰探索
- Authors: Peng Sun, Xiangyu Zhang, Duan Wu,
- Abstract要約: 高忠実度満足度評価のためのスケーラブルなフレームワークであるBoRPを紹介する。
産業データセットの実験は、BoRPが生成ベースラインを著しく上回っていることを示している。
BoRPは推論コストを桁違いに削減し、CUPEDによるフルスケールの監視と高感度なA/Bテストを可能にする。
- 参考スコア(独自算出の注目度): 13.561789180344533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate evaluation of user satisfaction is critical for iterative development of conversational AI. However, for open-ended assistants, traditional A/B testing lacks reliable metrics: explicit feedback is sparse, while implicit metrics are ambiguous. To bridge this gap, we introduce BoRP (Bootstrapped Regression Probing), a scalable framework for high-fidelity satisfaction evaluation. Unlike generative approaches, BoRP leverages the geometric properties of LLM latent space. It employs a polarization-index-based bootstrapping mechanism to automate rubric generation and utilizes Partial Least Squares (PLS) to map hidden states to continuous scores. Experiments on industrial datasets show that BoRP (Qwen3-8B/14B) significantly outperforms generative baselines (even Qwen3-Max) in alignment with human judgments. Furthermore, BoRP reduces inference costs by orders of magnitude, enabling full-scale monitoring and highly sensitive A/B testing via CUPED.
- Abstract(参考訳): 会話型AIの反復開発には,ユーザの満足度を正確に評価することが重要である。
しかしながら、オープンなアシスタントでは、従来のA/Bテストには信頼性のあるメトリクスが欠如している。
このギャップを埋めるために、我々は高忠実度満足度評価のためのスケーラブルなフレームワークであるBoRP(Bootstrapped Regression Probing)を紹介します。
生成的アプローチとは異なり、BoRP は LLM 潜在空間の幾何学的性質を利用する。
ルーブリック生成を自動化するために偏極インデックスベースのブートストラッピング機構を採用し、隠された状態を連続的なスコアにマッピングするために部分最小広場(PLS)を使用している。
産業データセットの実験により、BoRP(Qwen3-8B/14B)は、人間の判断に従って生成ベースライン(Qwen3-Max)を著しく上回ることが示された。
さらに、BoRPは予測コストを桁違いに削減し、CUPEDによるフルスケールの監視と高感度なA/Bテストを可能にする。
関連論文リスト
- TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Minimum Bayes Risk Decoding for Error Span Detection in Reference-Free Automatic Machine Translation Evaluation [50.83502171176548]
Maximum a Posteriori (MAP) を用いた最新造形ESD法
生成ESDモデルに最小ベイズリスク(MBR)デコードを適用することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-08T13:21:44Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds [0.0]
フレキシブルかつ解釈可能なインスタンスセグメンテーションメトリックであるSoftPQを提案する。
我々は、既存のメトリクスが見落としているセグメンテーション品質の有意義な違いをSoftPQが捉えていることを示す。
論文 参考訳(メタデータ) (2025-05-17T22:08:33Z) - RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Quantifying and Optimizing Global Faithfulness in Persona-driven Role-playing [37.92922713921964]
ペルソナ駆動型ロールプレイング(PRP)は、すべてのペルソナステートメントに忠実に固執することで、ユーザクエリに応答可能なAI文字を構築することを目的としている。
本稿では,PRP忠実度を細粒度で説明可能な基準として定量化するための先駆的な探索について述べる。
論文 参考訳(メタデータ) (2024-05-13T13:21:35Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。